本次版本围绕“算力调度体系化建设”与“混沌工程/全链路压测实战”两条主线进行深度扩展,在章节完整度、案例密度与方法可落地性上继续提升。
本次新增约 13 万字,重点新增第四章第 2 节与第五章第 5.4 节及 7 个企业案例。
核心更新亮点
新增第四章第 2 节《SRE 团队的综合算力调度》
- 新增从资源纳管到消费落地的全链路设计:基础资源管控、公共基础设施、流程及自动化基础设施、算力调度基础设施。
- 新增“算力市场与供给管理”,强调资源池化、供需协同与成本治理的可持续机制。
- 新增“通用算力消费能力”和“专有领域算力消费扩展”,覆盖研发、低代码、金融证券、游戏等典型场景。
- 新增“算力能效与安全控制”,形成能效评估、优化闭环与安全合规并行的治理框架。
新增第五章第 5.4 节《混沌工程与全链路压测》
- 新增概述、体系设计、关键流程三部分,形成“方法论 + 工程化 + 运营化”的完整主干。
- 新增 7 个一线企业案例,完整列表为:《腾讯游戏 SRE 混沌工程及压测实践》《携程全链路压测平台的建设与运营》《小红书混合云容灾治理实践》《蚂蚁大促场景下全链路压测体系构建与保障实践》《腾讯游戏高可用保障体系实践》《小米混沌工程与全链路压测实践》《小红书基于流量地图的活动保障实践与 AI 探索》。
- 围绕风险发现、容量验证、故障注入、自动化保障、AI 辅助分析等能力给出可复用实践。
5.4 新增案例一览(含配图)
5.4.4 腾讯游戏 SRE 混沌工程及压测实践
面向亿级 DAU 游戏业务,给出“上线前容量验证 + 线上常态化演练 + 快速恢复”的端到端稳定性实践。

5.4.5 携程全链路压测平台的建设与运营
聚焦“生产环境安全压测”,展示账号体系、流量透传、三层隔离与平台化自助压测能力建设。

5.4.6 小红书混合云容灾治理实践
基于 PDCA 构建容灾治理闭环,覆盖流量调度、专线风险应对、容灾中控与分层演练体系。

5.4.7 蚂蚁大促场景下全链路压测体系构建与保障实践
围绕双十一等高峰场景,给出活动分级、链路压测、风险熔断与资金安全保障协同方案。

5.4.8 腾讯游戏高可用保障体系实践
覆盖“左移评审—测试演练—上线验证—运营定位”的全生命周期保障框架,强化实战可迁移性。

5.4.9 小米混沌工程与全链路压测实践
以“蓝军/红军”协同与 AI 增强为主线,展示故障注入、压测引擎与观测联动的一体化方案。

5.4.10 小红书基于流量地图的活动保障实践与 AI 探索
围绕“看得清、算得准、调得快”构建活动保障流程,并将 AI 引入告警分析与复盘闭环。

1.0.7 修订记录
- 本次新增约十三万字。
- 完善第四章第 2 节《SRE 团队的综合算力调度》,新增基础资源管控、公共基础设施、流程及自动化基础设施、算力调度基础设施、算力市场与供给管理、通用算力消费能力、专有领域算力消费扩展、算力能效与安全控制等内容。
- 新增第五章第 5.4 节《混沌工程与全链路压测》,包括概述、体系设计、关键流程等内容,并新增 7 个案例。
反馈和沟通
如果您有任何问题或建议,点这里提交联系我们。
也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。