腾讯⼤规模云原⽣平台稳定性实践-唐聪的博客

腾讯⼤规模云原⽣平台稳定性实践

随着云原生技术的逐步推广，越来越多业务开始使用云原生容器化的方式构建自己的应用。Kubernetes 作为云原生容器调度平台成为了行业的一致选择，基于 Kubernetes 还衍生出了 Serverless、边缘计算、 Mesh 平台等一系列云原生平台解决方案。

在 2021 年 ArchSummit 全球架构师峰会【深圳站】上，我发表了题为《腾讯大规模云原生平台稳定性实践》的演讲，介绍腾讯在构建大规模云原生平台过程中提升 Kubernetes 集群稳定性的实践经验。

kubernetes故障案例分析与最佳实践

首先从典型故障案例说起，为什么 Kubernetes 稳定性不可忽视呢?下图给大家列举了三个典型场景的 Kubernetes 故障:

• master 核心组件组件，Kube-apiserver/etcd 组件因大量 List 等 expensive request 导致集群雪崩，这类故障轻则无法发布，重则影响业务数据面;

• 集群 addon 组件故障，如核心的 HPA 组件等。当面对突发流量时，如果 HPA 服务遭遇故障，无法及时扩容则也会导致严重的服务可用性故障;

• 业务自行开发的 operator 引起的故障。各业务在云原生过程中，会结合业务领域知识、编写 operator 来适配自己的业务场景，而 operator 核心工作机制是根据实际状态与期望状态进行比较，并采取一致性协调动作使它们趋于一致。然而某业务 operator 依赖方变更，返回数据异常，operator 在快速进行一致性协调过程中，删除了某类 Kubernetes 资源，导致业务异常。

…

演讲文字版，可下载腾讯云技术实践精选集2021,查看腾讯⼤规模云原⽣平台稳定性实践篇第77-89页.

演讲PDF

查看ArchSummit演讲pdf.

腾讯⼤规模云原⽣平台稳定性实践

TOC