incident-response
线上事故响应流程:定位、止损、根因、复盘。
评分明细
适用场景
incident-response 快速入门
让 AI 在生产事故中”当一个冷静的副驾驶”,按标准流程帮你定位、止损、复盘。
这是什么?解决什么问题?
incident-response 是社区在 JackyST0/awesome-agent-skills 索引下收录的一个 Anthropic 生态 Skill,核心用途是线上事故响应流程的标准化。它解决的问题,是事故发生时最常见的几个”组织性灾难”:
- 不知道谁在管这件事,一群人在群里来回 @ 浪费 10 分钟。
- 没人敢下”止损决策”,大家都在”再观察一下”,错过黄金止损窗口。
- 事故结束后没人写复盘报告,同样的事故 3 个月后再来一次。
- 复盘报告变成”甩锅大会”,而不是”系统改进输入”。
这个 Skill 沉淀的标准流程是 SRE 行业广泛采用的四阶段模型:
- 检测与定位(Detect):确认事故、确定影响面、拉值班人进战时频道。
- 止损(Contain):快速止血——回滚、限流、切流量、关功能,任何”能让事故不再扩大”的动作优先。
- 根因分析(RCA):止损后,做 5-Whys、时间线复盘,找到根本原因。
- 复盘与改进(Postmortem):写无指责复盘报告,产出可执行的 Action Items,跟踪落地。
它适合的场景:生产事故的标准化处理、新人 on-call 培训、事故复盘文档生成、运维 SOP 沉淀。
准备工作
- 一个支持 Skill 加载的 AI 编程助手(Claude Code / Cursor)。
- 团队有事故沟通频道(Slack / 飞书 / 企业微信)。
- 有事故级别定义(SEV1/2/3)、有 on-call 轮值表。
- Clone 仓库:
git clone https://github.com/JackyST0/awesome-agent-skills.git - 软链 Skill:
ln -s awesome-agent-skills/skills/incident-response ~/.claude/skills/incident-response
3 步快速上手
第 1 步:安装 Skill
重启 AI 助手,Skill 生效。
第 2 步:验证安装
向 AI 发送请求:
“用 incident-response 给我一个 SEV1 事故的标准化处理流程清单,包含检测、止损、根因、复盘四个阶段。”
如果 AI 输出的是分阶段的 checklist,每阶段有明确的”完成定义”和”角色”,说明 Skill 加载成功。
第 3 步:用 incident-response 跑第一个任务
任务 1:事故实时辅助
假设你正在处理一个”支付接口 5xx 飙升”的事故,在战时频道里问 AI:
“我们现在支付服务 5xx 飙升到 30%,持续 10 分钟。请按 incident-response 流程,先帮我列出止损建议。”
AI 会输出:
## 阶段 1:止损(优先级最高,5 分钟内)
### 立即可做(30 秒内)
- [ ] 检查是否有最近一次部署,如果是,触发 `kubectl rollout undo deployment/payment`
- [ ] 检查是否是新功能导致,临时关闭"新支付渠道"功能开关(Feature Flag)
### 30 秒 - 2 分钟
- [ ] 拉取最近 5 分钟的 ERROR 日志,看是否有 stack trace 集中爆发
- [ ] 检查下游银行/三方支付接口连通性
### 2 - 5 分钟
- [ ] 启动限流:payment 服务对外部 QPS 限制到 50%
- [ ] 启动备用支付通道
- [ ] 通知客服:暂停向用户推送支付成功消息
任务 2:Postmortem 报告生成
事故解决后,让 AI 帮你写 Postmortem:
“请基于以下时间线,生成一份 incident-response 标准的 Postmortem 报告:
10:00 - 监控告警:支付服务 5xx > 5%
10:05 - on-call 张三确认事故,SEV1
10:08 - 发现是 14:30 部署的 v2.3.1 引入了新支付 SDK,有内存泄漏
10:15 - 回滚到 v2.3.0
10:20 - 5xx 恢复到 0.1%
10:30 - 复盘会开始
```"
AI 会输出结构化的 Postmortem 模板,包括时间线、根因、影响面、Action Items。
## 常见踩坑
1. **止损和根因混在一起做**。事故中同时想"止血"和"找原因",结果两头都做不好。Skill 强调"先止损,后根因",分阶段进行。
2. **没人有决策权**。"再观察一下"是事故中最贵的一句话,Skill 强调"指定 Incident Commander",所有止损决策由他一人拍板。
3. **状态不同步**。群里讨论热火朝天,实际在操作的人不知道,Skill 强调"所有进展在战时频道同步,主对话禁用"。
4. **复盘报告变成甩锅**。"都是张三的代码没测好"这种话术无助于改进,Skill 要求"无指责文化(blameless)",关注系统而非个人。
5. **Action Items 没有 owner 和 deadline**。复盘报告里"以后注意"是没用的,要"张三在 6 月 30 日前加上支付 SDK 内存监控"。
6. **不复盘"小事故"**。SEV3 也要写 Postmortem,否则小问题会演变成大问题,Skill 建议"所有 SEV1/2 必写,SEV3 抽样写"。
## 初级用法
**用法 1:事故响应 SOP 沉淀**。让 AI 按 Skill 帮你把团队的事故流程整理成标准 SOP,新人 on-call 直接照着做。
**用法 2:Postmortem 模板生成**。让 AI 按 Skill 帮你生成 Postmortem 模板(Markdown / Notion 数据库),事故后填空就行。
**用法 3:On-call 培训**。让 AI 模拟一个事故场景,让你按 Skill 流程走一遍,锻炼"战时反应"。
## 高级玩法
**玩法 1:GameDay 演练**。让 AI 在测试环境注入"事故"(比如 kill 某个 pod),让团队按 Skill 流程演练,事后 review 哪里没做对。
**玩法 2:自动止损剧本**。让 AI 帮你写"事故剧本"(Runbook),某些固定事故模式(如磁盘满、OOM)触发后自动执行,不需要人参与。
**玩法 3:SLO / Error Budget**。让 AI 帮你设计 SLO(Service Level Objective),比如"月可用性 99.95%",超了就停所有非必要发布,强制改进。
## 小技巧
1. **战时频道要单一**。一个事故一个频道,所有讨论只在这里发生,避免信息分散。
2. **Incident Commander 不能写代码**。IC 只能协调,不能亲自 debug,否则没人做决策。Skill 强调角色分离。
3. **时间戳精确到分钟**。Postmortem 时间线不要写"上午""下午",写 `10:00` `10:08`,方便后续回溯。
4. **截图胜过千言万语**。监控图、ERROR 日志截图都贴到 Postmortem,新人能直观理解事故。
5. **Action Items 进 Issue 跟踪**。不要让 Postmortem 停在文档里,每条 Action 都要建 Issue,设 owner 和 due date。
## 常见问题 FAQ
**Q1: 这个 Skill 跟 incident-response 有什么关系?必须装吗?**
A: Skill 是给 AI Agent 用的"技能包",能告诉 Agent 怎么按特定规范工作。**不是必须装**——如果你的项目规模小、要求不高,不装也能用。但装上能让 Agent 输出的质量更高、更符合最佳实践,推荐装。
**Q2: 这个 Skill 适合哪些 AI Agent?Cursor?Claude Code?其他?**
A: incident-response 来自 Anthropic,主要面向支持 Skill 机制的 Agent。常见兼容 Agent 包括 Claude Code、Cursor、OpenCode、Windsurf 等。具体兼容性请查 Skill 官方文档。
**Q3: 装了这个 Skill 后,会拖慢 Agent 响应吗?**
A: 会的——Skill 通常会增加 prompt 长度,导致响应变慢、token 消耗增加。但质量提升明显。建议:1) 只装项目必需的 Skill;2) 用 Skill 启动/加载/卸载机制按需加载;3) 定期清理不用的 Skill。
**Q4: 怎么验证 Skill 装对了?**
A: 在 Agent 中输入"列出已加载的 Skill"或类似命令。如果 Skill 出现在列表里,说明装对了。然后用 Skill 跑一个相关任务,看输出是否符合 Skill 规范。
**Q5: 这个 Skill 有许可证吗?能商用吗?**
A: 取决于 incident-response 的许可证。常见许可证包括 MIT(完全自由)、Apache-2.0(自由但有专利条款)、源可用(可看不能用)、GPL(强开源)。商用前请查仓库 LICENSE 文件。
## 参考链接
- incident-response 索引:https://github.com/JackyST0/awesome-agent-skills
- Google SRE Book(事故章节):https://sre.google/sre-book/managing-incidents/
- Atlassian Incident Handbook:https://www.atlassian.com/incident-management/handbook
- PagerDuty 事故响应指南:https://response.pagerduty.com/
- Etsy Debriefing Facilitation Guide:https://extfiles.etsy.com/DebriefingFacilitationGuide.pdf
---
> 本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
incident-response Skill 多维度简评
综合评分:8.5 / 10 ⭐⭐⭐⭐ 类别:工程方法 来源:anthropics/skills 定位:故障应急响应:On-call 流程、Postmortem、Runbook 自动化。
声明:本文基于官方文档和公开资料整理,未经过 MagicNetWorld 实测。
一、核心定位与价值
incident-response 是 Anthropic 官方 Skills 仓库中的工程方法 Skill,面向 SRE 和运维团队。该 Skill 将 Google SRE 方法论中的事故管理最佳实践封装为 AI Agent 可执行的工作流,帮助团队在事故发生时快速响应、记录和处理,并在事故结束后生成结构化的 Postmortem 报告。
核心价值:故障应急响应:On-call 流程、Postmortem、Runbook 自动化。
二、核心能力清单
| 能力 | 实现方式 | 适用场景 |
|---|---|---|
| 事故声明 | 生成结构化事故通知 | 生产事故、On-call |
| 状态更新模板 | 定时 StatusPage 更新 | 生产事故、对外沟通 |
| Postmortem 模板 | 无指责文化的事后分析 | 事故复盘 |
| Runbook 自动化 | 分步操作指引 | 常见故障处理 |
| 时间线记录 | 事故全程时间线 | 事后追溯 |
三、典型使用场景
场景 1:事故声明和沟通
提示词:
API 服务出现 5xx 错误率升高,帮我生成一份 StatusPage 事故声明,包含影响范围、用户影响和初步排查方向
Skill 根据事故类型生成标准化的事故声明模板。
场景 2:Postmortem 编写
提示词:
基于本次事故的时间线和根本原因,编写一份无指责的 Postmortem 报告
生成的 Postmortem 通常包含:事故时间线、根本原因分析、影响评估、修复措施和长期改进计划。
场景 3:Runbook 创建
提示词:
为数据库连接池耗尽故障创建一份 Runbook,包含诊断步骤、应急措施和回滚方案
Skill 自动生成分步骤的操作手册。
场景 4:与 PagerDuty 集成
提示词:
从 PagerDuty 获取最近 3 个告警,帮我分析是否为关联事故
Skill 支持与主流监控和告警工具的接口对接。
四、Postmortem 核心结构
一个完整的 Postmortem 报告包含以下要素(参考 Google SRE 实践):
- 事故摘要:时间、影响范围、持续时间
- 时间线:从发现到解决的关键事件
- 根本原因:技术层面的根因分析(5-Why)
- 影响评估:用户影响、业务影响
- 修复措施:已执行的即时修复
- 改进计划:长期预防措施和行动项
- 经验教训:团队从事故中学到了什么
五、常见使用误区
| # | 误区 | 说明 | 正确做法 |
|---|---|---|---|
| 1 | ”事故后写 Postmortem 太慢” | 使用 AI 模板生成初稿,人工补充细节 | 事故后 24-48 小时内完成 |
| 2 | ”小事故不需要 Postmortem” | 小事故可能暴露系统性风险 | 设置事故等级阈值,但都记录 |
| 3 | ”Runbook 写一次就够了” | 系统在变化,Runbook 需要持续更新 | 每次事故后审查相关 Runbook |
| 4 | ”AI 不能处理真实事故” | AI 辅助标准化流程,人工做关键决策 | AI 处理模板化工作,人做判断 |
六、安装与配置
# 通过 Claude Code 插件市场安装
/plugin marketplace add anthropics/skills
/plugin install incident-response@anthropic-agent-skills
# 手动安装
git clone https://github.com/anthropics/skills.git
cp -r skills/incident-response ~/.claude/skills/
七、总结
核心价值:
- 标准化事故响应流程
- 自动化 Postmortem 生成
- Runbook 创建与维护
- 事故沟通模板
适用人群:
- SRE 工程师 / DevOps / 技术 Lead
投入产出比:⭐⭐⭐⭐ —— 推荐安装
incident-response Skill 将 Google SRE 的事故管理最佳实践融入 AI Agent 工作流,适合希望标准化事故响应流程的工程团队。
参考资料
- Anthropic Skills 官方仓库 — GitHub 仓库
- Google SRE Book - Postmortem Culture — Google SRE 实践
- Claude Code 官方文档 - Skills — 官方文档
- Anthropic Postmortem 实践 — 官方博客
快速安装
git clone https://github.com/JackyST0/awesome-agent-skills.git ln -s awesome-agent-skills/skills/incident-response ~/.claude/skills/incident-response