• 首页
  • 《SRE实践白皮书》v1.0.7 发布

《SRE实践白皮书》v1.0.7 更新版。

11th Mar, 2026

本次版本围绕“算力调度体系化建设”与“混沌工程/全链路压测实战”两条主线进行深度扩展,在章节完整度、案例密度与方法可落地性上继续提升。

本次新增约 13 万字,重点新增第四章第 2 节与第五章第 5.4 节及 7 个企业案例。

核心更新亮点

新增第四章第 2 节《SRE 团队的综合算力调度》

  • 新增从资源纳管到消费落地的全链路设计:基础资源管控、公共基础设施、流程及自动化基础设施、算力调度基础设施。
  • 新增“算力市场与供给管理”,强调资源池化、供需协同与成本治理的可持续机制。
  • 新增“通用算力消费能力”和“专有领域算力消费扩展”,覆盖研发、低代码、金融证券、游戏等典型场景。
  • 新增“算力能效与安全控制”,形成能效评估、优化闭环与安全合规并行的治理框架。

新增第五章第 5.4 节《混沌工程与全链路压测》

  • 新增概述、体系设计、关键流程三部分,形成“方法论 + 工程化 + 运营化”的完整主干。
  • 新增 7 个一线企业案例,完整列表为:《腾讯游戏 SRE 混沌工程及压测实践》《携程全链路压测平台的建设与运营》《小红书混合云容灾治理实践》《蚂蚁大促场景下全链路压测体系构建与保障实践》《腾讯游戏高可用保障体系实践》《小米混沌工程与全链路压测实践》《小红书基于流量地图的活动保障实践与 AI 探索》。
  • 围绕风险发现、容量验证、故障注入、自动化保障、AI 辅助分析等能力给出可复用实践。

5.4 新增案例一览(含配图)

5.4.4 腾讯游戏 SRE 混沌工程及压测实践

面向亿级 DAU 游戏业务,给出“上线前容量验证 + 线上常态化演练 + 快速恢复”的端到端稳定性实践。

腾讯游戏SRE混沌工程及压测实践

5.4.5 携程全链路压测平台的建设与运营

聚焦“生产环境安全压测”,展示账号体系、流量透传、三层隔离与平台化自助压测能力建设。

携程全链路压测平台

5.4.6 小红书混合云容灾治理实践

基于 PDCA 构建容灾治理闭环,覆盖流量调度、专线风险应对、容灾中控与分层演练体系。

小红书混合云容灾治理实践

5.4.7 蚂蚁大促场景下全链路压测体系构建与保障实践

围绕双十一等高峰场景,给出活动分级、链路压测、风险熔断与资金安全保障协同方案。

蚂蚁大促全链路压测实践

5.4.8 腾讯游戏高可用保障体系实践

覆盖“左移评审—测试演练—上线验证—运营定位”的全生命周期保障框架,强化实战可迁移性。

腾讯游戏高可用保障体系实践

5.4.9 小米混沌工程与全链路压测实践

以“蓝军/红军”协同与 AI 增强为主线,展示故障注入、压测引擎与观测联动的一体化方案。

小米混沌工程与全链路压测实践

5.4.10 小红书基于流量地图的活动保障实践与 AI 探索

围绕“看得清、算得准、调得快”构建活动保障流程,并将 AI 引入告警分析与复盘闭环。

小红书流量地图活动保障实践

1.0.7 修订记录

  • 本次新增约十三万字。
  • 完善第四章第 2 节《SRE 团队的综合算力调度》,新增基础资源管控、公共基础设施、流程及自动化基础设施、算力调度基础设施、算力市场与供给管理、通用算力消费能力、专有领域算力消费扩展、算力能效与安全控制等内容。
  • 新增第五章第 5.4 节《混沌工程与全链路压测》,包括概述、体系设计、关键流程等内容,并新增 7 个案例。

反馈和沟通

如果您有任何问题或建议,点这里提交联系我们

也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。

下载最新白皮书

版本:v1.0.7
下载