成本最高降低70%,腾讯大规模业务集群的云原生成本优化实践!

Posted by 唐聪 on Wednesday, June 15, 2022

TOC

成本最高降低70%,腾讯大规模业务集群的云原生成本优化实践!

背景

2021年下半年以来,在新冠疫情和互联网政策的冲击之下,各大互联网公司都在进行降本增效。降本增效的一大核心手段就是优化计算资源成本,本文将以腾讯某内部 Kubernetes/TKE 业务为案例,详细阐述如何从 0到1(成本数据采集与分析、优化措施、行业现状与方案选型、方案设计与实现、落地与效果、总结)进行大规模、高可靠、高效率的成本优化的实践,并在这过程中实现了零故障突发,CPU 最高节省70%,Memory 节省50%的成果。本文所介绍的成本优化整体方案实现是腾讯云开源项目 Crane 的内部雏形版,我们在内部成功实践的基础上,将相关设计方案与最佳实践进一步输出给对外开源项目 Crane(https://github.com/gocrane/crane),致力于为云原生广大用户提供云成本优化一站式解决方案。

业务现状

本文提及的若干业务全部容器化部署在 TKE 集群中,在经历了两三年的用户大规模增长后,扩容了大量节点,账单高峰期费用每月千万级,为了搞清楚高昂成本背后的缘由,以及正确的选择收益大的优化方向,我们需要基于一系列数据做科学的决策,因此成本优化的第一步,就是进行成本数据的采集与分析,如下图所示:

详情

详情参考腾讯云原生公众号文章.