TOC
腾讯⼤规模云原⽣平台稳定性实践
随着云原生技术的逐步推广,越来越多业务开始使用云原生容器化的方式构建自己的应用。Kubernetes 作为云原生容器调度平台成为了行业的一致选择,基于 Kubernetes 还衍生出了 Serverless、边缘计算、 Mesh 平台等一系列云原生平台解决方案。
在 2021 年 ArchSummit 全球架构师峰会【深圳站】上,我发表了题为《腾讯大规模云原生平台稳定性实践》的演讲,介绍腾讯在构建大规模云原生平台过程中提升 Kubernetes 集群稳定性的实践经验。
kubernetes故障案例分析与最佳实践
首先从典型故障案例说起,为什么 Kubernetes 稳定性不可忽视呢?下图给大家列举了三个典型场景的 Kubernetes 故障:
• master 核心组件组件,Kube-apiserver/etcd 组件因大量 List 等 expensive request 导致集群雪崩,这 类故障轻则无法发布,重则影响业务数据面;
• 集群 addon 组件故障,如核心的 HPA 组件等。当面对突发流量时,如果 HPA 服务遭遇故障,无法及时 扩容则也会导致严重的服务可用性故障;
• 业务自行开发的 operator 引起的故障。各业务在云原生过程中,会结合业务领域知识、编写 operator 来适配自己的业务场景,而 operator 核心工作机制是根据实际状态与期望状态进行比较,并采取一致性 协调动作使它们趋于一致。然而某业务 operator 依赖方变更,返回数据异常,operator 在快速进行一致 性协调过程中,删除了某类 Kubernetes 资源,导致业务异常。
…
演讲文字版,可下载腾讯云技术实践精选集2021,查看腾讯⼤规模云原⽣平台稳定性实践篇第77-89页.