历经四个多月的集中编写,并融汇 2025 年上半年度的深圳 GOPS 与北京 InfoQ 大会的最新分享,本次版本在整体框架与深度上实现了又一次跃升。核心亮点如下:
新增第四章「SRE 进阶」
该章面向 SRE 管理者,聚焦团队治理与商业化实践,计划分四个模块展开。首批发布的 “4.1 SRE 团队的生存与持续发展”,结合国内外一线案例,系统剖析 SRE 组织在预算、权责与 ROI 三维度的生存法则,并给出可操作的评估与演进路径。其余三节——综合算力调度、货币化改革、货币化后的持续发展——将于后续迭代中陆续推出。
联盟升级与视角拓展
2025 年起,SRE-elite 已整体并入中国信通院云大所「稳定性保障实验室」并成立 SRE 工作组,成员规模扩至 40+。我们沿用每周二晚例会传统,持续沉淀来自互联网、金融、游戏等领域的最佳实践,并在 QCon、GOPS 等行业大会开设专场,推动社区共建。
内容体系再次细分
- 第二章 将重塑为 SRE 职场新人的基础理论入口;
- 第三章 继续迭代国内企业 SRE 职责全景,方便对标与差距分析;
- 第四章 正式承担组织级策略与可持续发展议题,助力 SRE 从“止损”走向“增收”。
本次更新新增近 6 万字,既补足了理论深度,也给出了可执行的工具、指标与盈利模型。我们诚邀广大 SRE 同仁阅读、探讨,并期待在实践中不断完善这一开放文档。若有意见或案例分享,欢迎通过 GitHub Issues/Discussions 与我们交流。(https://github.com/sre-elite/whitepaper/issues)
1.0.6 修订记录
- 本次新增约 6 万字
- 新增第四章「SRE 进阶」:包含 “SRE团队的生存与持续发展”“SRE团队的综合算力调度”“SRE 团队的货币化改革”“SRE 货币化后的持续发展”。本次发布 SRE团队的生存与持续发展,其余模块待编写。
- 章节结构调整:将原第二章 SRE 组织架构 并入第一章;新增第二章 SRE 的基础(编写重)。
- 第三章第 5 节〈故障应急〉:结构全面优化,新增 “XX 银行”“腾讯 IEG”“小米米家”“广发证券” 等案例,并更新原 “美图” 案例展望内容。
5.3.8 XX 银行应急提升实践:深耕 1-5-10 工程
SRE Elite 精选原因:
该案例以“1510”工程为牵引,从组织、流程、工具三维度提升金融级故障应急韧性。通过横纵三层技术支持、一分钟监控感知、五分钟节点级定界、十分钟应急六板斧处置,实现端到端闭环;配套早例会、复盘、治理、体验等机制沉淀知识并驱动持续改进;值班经理八大修养与跨部门协作文化保障指挥效率;最终形成可预见故障场景及一键应急平台,将专家隐性知识自动化,故障诊断秒级完成,为大中型股份制银行构建高效、可复制的稳定性保障范式。
5.3.9 腾讯 IEG SRE 应急响应实践
SRE Elite 精选原因:
方案亮点在于依托蓝鲸基座, 以平台工程的方式整合监控、CMDB、权限等能力,形成“告警→响应→诊断→恢复→复盘”全链闭环。标准化告警接入配合巡检确保观测确定性,自动升级流程打通跨团队协作;APM+eBPF零侵入全栈观测结合 LLM Agent 智能根因定位,将诊断压缩至分钟级;混沌工程与每日过载验证保障过载保护有效,常态化 On-Call 与演练提升团队实战熟练度,使多数故障实现分钟级自愈,真正把应急从人治升级为体系化工程。
5.3.10 小米米家故障应急保障体系实战:稳中求胜的构建之道
SRE Elite 精选原因:
米家承载 8.6 亿设备、1 亿月活、日 PV 200 亿,一次失误即波及千万用户。团队以六层技术架构配合“三句话”多活容灾(层层防护、多机房、多版本快照回滚),并建立“流程前置‑平台自动化‑组织兜底”三维稳定性体系。研运一体化平台打通工单‑灰度‑监控,AI 因果 RCA 和 SRERobot 实现秒级定位与自愈。5‑30 分钟分级应急及告警小助手,自动拉群、匹配预案、闭环复盘。
2022 跨机房专线中断与 2024 机房火灾两次实战,通过 79 项改进验证体系成效,极具参考意义,体现“稳中求胜、持续迭代”的 SRE 文化。
5.3.11 广发证券数智化重构故障管理:构建主动防御新体系
SRE Elite 精选原因:
广发证券设计了通过应急实现全生命周期稳定: 运维左移通过架构韧性模型前置可靠性;变更管控用数字化平台与感知因子,达成事前防御、事中阻断、事后追溯;应急指挥借ECC与 ChatOps 机器人秒级集结,数字化预案保障快速恢复;大模型运维整合算法中心、知识库与智能体,智能定位根因、降噪、脚本合规;机器人把监控、变更、巡检等能力原子化嵌入 IM,释放专家价值,并探索多模态看板异常识别。
整体方案完整,落地,并具备一定的前瞻性及探索性, 是证券行业的SRE 数智化标杆案例。
反馈和沟通
如果您有任何问题或建议,点这里提交联系我们。
也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。