📚 运维全难度 📦 Anthropic

incident-response

线上事故响应流程：定位、止损、根因、复盘。

8.5 /10 ★★★★☆

📅 2026-06-15 · 🕒 5 分钟阅读 · 最后更新 2026-06-15 · 来源: Anthropic · 分析测评

#sre#incident#on-call

📄 相关文章

📊 评分明细

⚡ 功能完备度

8.5 核心功能齐全

🎯 易用性

8.2 安装即用

🔧 可扩展性

8.3 声明式配置

🔗 生态协同

8.4 可链式调用

🛡️ 稳定性

8.8 内置验证流程

🎯 适用场景

sreincidenton-call

incident-response 快速入门

让 AI 在生产事故中”当一个冷静的副驾驶”,按标准流程帮你定位、止损、复盘。

这是什么?解决什么问题?

incident-response 是社区在 JackyST0/awesome-agent-skills 索引下收录的一个 Anthropic 生态 Skill,核心用途是线上事故响应流程的标准化。它解决的问题,是事故发生时最常见的几个”组织性灾难”:

不知道谁在管这件事,一群人在群里来回 @ 浪费 10 分钟。
没人敢下”止损决策”,大家都在”再观察一下”,错过黄金止损窗口。
事故结束后没人写复盘报告,同样的事故 3 个月后再来一次。
复盘报告变成”甩锅大会”,而不是”系统改进输入”。

这个 Skill 沉淀的标准流程是 SRE 行业广泛采用的四阶段模型:

检测与定位(Detect):确认事故、确定影响面、拉值班人进战时频道。
止损(Contain):快速止血——回滚、限流、切流量、关功能,任何”能让事故不再扩大”的动作优先。
根因分析(RCA):止损后,做 5-Whys、时间线复盘,找到根本原因。
复盘与改进(Postmortem):写无指责复盘报告,产出可执行的 Action Items,跟踪落地。

它适合的场景:生产事故的标准化处理、新人 on-call 培训、事故复盘文档生成、运维 SOP 沉淀。

准备工作

一个支持 Skill 加载的 AI 编程助手(Claude Code / Cursor)。
团队有事故沟通频道(Slack / 飞书 / 企业微信)。
有事故级别定义(SEV1/2/3)、有 on-call 轮值表。

Clone 仓库:

git clone https://github.com/JackyST0/awesome-agent-skills.git

软链 Skill:

ln -s awesome-agent-skills/skills/incident-response ~/.claude/skills/incident-response

3 步快速上手

第 1 步:安装 Skill

重启 AI 助手,Skill 生效。

第 2 步:验证安装

向 AI 发送请求:

“用 incident-response 给我一个 SEV1 事故的标准化处理流程清单,包含检测、止损、根因、复盘四个阶段。”

如果 AI 输出的是分阶段的 checklist,每阶段有明确的”完成定义”和”角色”,说明 Skill 加载成功。

第 3 步:用 incident-response 跑第一个任务

任务 1:事故实时辅助

假设你正在处理一个”支付接口 5xx 飙升”的事故,在战时频道里问 AI:

“我们现在支付服务 5xx 飙升到 30%,持续 10 分钟。请按 incident-response 流程,先帮我列出止损建议。”

AI 会输出:

## 阶段 1:止损(优先级最高,5 分钟内)

### 立即可做(30 秒内)
- [ ] 检查是否有最近一次部署,如果是,触发 `kubectl rollout undo deployment/payment`
- [ ] 检查是否是新功能导致,临时关闭"新支付渠道"功能开关(Feature Flag)

### 30 秒 - 2 分钟
- [ ] 拉取最近 5 分钟的 ERROR 日志,看是否有 stack trace 集中爆发
- [ ] 检查下游银行/三方支付接口连通性

### 2 - 5 分钟
- [ ] 启动限流:payment 服务对外部 QPS 限制到 50%
- [ ] 启动备用支付通道
- [ ] 通知客服:暂停向用户推送支付成功消息

任务 2:Postmortem 报告生成

事故解决后,让 AI 帮你写 Postmortem:

“请基于以下时间线,生成一份 incident-response 标准的 Postmortem 报告:

10:00 - 监控告警:支付服务 5xx > 5%
10:05 - on-call 张三确认事故,SEV1
10:08 - 发现是 14:30 部署的 v2.3.1 引入了新支付 SDK,有内存泄漏
10:15 - 回滚到 v2.3.0
10:20 - 5xx 恢复到 0.1%
10:30 - 复盘会开始
```"

AI 会输出结构化的 Postmortem 模板,包括时间线、根因、影响面、Action Items。

## 常见踩坑

1. **止损和根因混在一起做**。事故中同时想"止血"和"找原因",结果两头都做不好。Skill 强调"先止损,后根因",分阶段进行。
2. **没人有决策权**。"再观察一下"是事故中最贵的一句话,Skill 强调"指定 Incident Commander",所有止损决策由他一人拍板。
3. **状态不同步**。群里讨论热火朝天,实际在操作的人不知道,Skill 强调"所有进展在战时频道同步,主对话禁用"。
4. **复盘报告变成甩锅**。"都是张三的代码没测好"这种话术无助于改进,Skill 要求"无指责文化(blameless)",关注系统而非个人。
5. **Action Items 没有 owner 和 deadline**。复盘报告里"以后注意"是没用的,要"张三在 6 月 30 日前加上支付 SDK 内存监控"。
6. **不复盘"小事故"**。SEV3 也要写 Postmortem,否则小问题会演变成大问题,Skill 建议"所有 SEV1/2 必写,SEV3 抽样写"。

## 初级用法

**用法 1:事故响应 SOP 沉淀**。让 AI 按 Skill 帮你把团队的事故流程整理成标准 SOP,新人 on-call 直接照着做。

**用法 2:Postmortem 模板生成**。让 AI 按 Skill 帮你生成 Postmortem 模板(Markdown / Notion 数据库),事故后填空就行。

**用法 3:On-call 培训**。让 AI 模拟一个事故场景,让你按 Skill 流程走一遍,锻炼"战时反应"。

## 高级玩法

**玩法 1:GameDay 演练**。让 AI 在测试环境注入"事故"(比如 kill 某个 pod),让团队按 Skill 流程演练,事后 review 哪里没做对。

**玩法 2:自动止损剧本**。让 AI 帮你写"事故剧本"(Runbook),某些固定事故模式(如磁盘满、OOM)触发后自动执行,不需要人参与。

**玩法 3:SLO / Error Budget**。让 AI 帮你设计 SLO(Service Level Objective),比如"月可用性 99.95%",超了就停所有非必要发布,强制改进。

## 小技巧

1. **战时频道要单一**。一个事故一个频道,所有讨论只在这里发生,避免信息分散。
2. **Incident Commander 不能写代码**。IC 只能协调,不能亲自 debug,否则没人做决策。Skill 强调角色分离。
3. **时间戳精确到分钟**。Postmortem 时间线不要写"上午""下午",写 `10:00` `10:08`,方便后续回溯。
4. **截图胜过千言万语**。监控图、ERROR 日志截图都贴到 Postmortem,新人能直观理解事故。
5. **Action Items 进 Issue 跟踪**。不要让 Postmortem 停在文档里,每条 Action 都要建 Issue,设 owner 和 due date。

## 常见问题 FAQ

**Q1: 这个 Skill 跟 incident-response 有什么关系?必须装吗?**

A: Skill 是给 AI Agent 用的"技能包",能告诉 Agent 怎么按特定规范工作。**不是必须装**——如果你的项目规模小、要求不高,不装也能用。但装上能让 Agent 输出的质量更高、更符合最佳实践,推荐装。

**Q2: 这个 Skill 适合哪些 AI Agent?Cursor?Claude Code?其他?**

A: incident-response 来自 Anthropic,主要面向支持 Skill 机制的 Agent。常见兼容 Agent 包括 Claude Code、Cursor、OpenCode、Windsurf 等。具体兼容性请查 Skill 官方文档。

**Q3: 装了这个 Skill 后,会拖慢 Agent 响应吗?**

A: 会的——Skill 通常会增加 prompt 长度,导致响应变慢、token 消耗增加。但质量提升明显。建议:1) 只装项目必需的 Skill;2) 用 Skill 启动/加载/卸载机制按需加载;3) 定期清理不用的 Skill。

**Q4: 怎么验证 Skill 装对了?**

A: 在 Agent 中输入"列出已加载的 Skill"或类似命令。如果 Skill 出现在列表里,说明装对了。然后用 Skill 跑一个相关任务,看输出是否符合 Skill 规范。

**Q5: 这个 Skill 有许可证吗?能商用吗?**

A: 取决于 incident-response 的许可证。常见许可证包括 MIT(完全自由)、Apache-2.0(自由但有专利条款)、源可用(可看不能用)、GPL(强开源)。商用前请查仓库 LICENSE 文件。
## 参考链接

- incident-response 索引:https://github.com/JackyST0/awesome-agent-skills
- Google SRE Book(事故章节):https://sre.google/sre-book/managing-incidents/
- Atlassian Incident Handbook:https://www.atlassian.com/incident-management/handbook
- PagerDuty 事故响应指南:https://response.pagerduty.com/
- Etsy Debriefing Facilitation Guide:https://extfiles.etsy.com/DebriefingFacilitationGuide.pdf
---
> 本文基于官方文档和公开资料整理，AI辅助生成，MagicNetWorld 尚未完成独立实测。如有错误或过时信息，请通过 contact@magicnetworld.com 反馈。

incident-response Skill 多维度简评

综合评分：8.5 / 10 ⭐⭐⭐⭐ 类别：工程方法来源：anthropics/skills 定位：故障应急响应：On-call 流程、Postmortem、Runbook 自动化。

声明：本文基于官方文档和公开资料整理，未经过 MagicNetWorld 实测。

一、核心定位与价值

incident-response 是 Anthropic 官方 Skills 仓库中的工程方法 Skill，面向 SRE 和运维团队。该 Skill 将 Google SRE 方法论中的事故管理最佳实践封装为 AI Agent 可执行的工作流，帮助团队在事故发生时快速响应、记录和处理，并在事故结束后生成结构化的 Postmortem 报告。

核心价值：故障应急响应：On-call 流程、Postmortem、Runbook 自动化。

二、核心能力清单

能力	实现方式	适用场景
事故声明	生成结构化事故通知	生产事故、On-call
状态更新模板	定时 StatusPage 更新	生产事故、对外沟通
Postmortem 模板	无指责文化的事后分析	事故复盘
Runbook 自动化	分步操作指引	常见故障处理
时间线记录	事故全程时间线	事后追溯

三、典型使用场景

场景 1：事故声明和沟通

提示词：
API 服务出现 5xx 错误率升高，帮我生成一份 StatusPage 事故声明，包含影响范围、用户影响和初步排查方向

Skill 根据事故类型生成标准化的事故声明模板。

场景 2：Postmortem 编写

提示词：
基于本次事故的时间线和根本原因，编写一份无指责的 Postmortem 报告

生成的 Postmortem 通常包含：事故时间线、根本原因分析、影响评估、修复措施和长期改进计划。

场景 3：Runbook 创建

提示词：
为数据库连接池耗尽故障创建一份 Runbook，包含诊断步骤、应急措施和回滚方案

Skill 自动生成分步骤的操作手册。

场景 4：与 PagerDuty 集成

提示词：
从 PagerDuty 获取最近 3 个告警，帮我分析是否为关联事故

Skill 支持与主流监控和告警工具的接口对接。

四、Postmortem 核心结构

一个完整的 Postmortem 报告包含以下要素（参考 Google SRE 实践）：

事故摘要：时间、影响范围、持续时间
时间线：从发现到解决的关键事件
根本原因：技术层面的根因分析（5-Why）
影响评估：用户影响、业务影响
修复措施：已执行的即时修复
改进计划：长期预防措施和行动项
经验教训：团队从事故中学到了什么

五、常见使用误区

#	误区	说明	正确做法
1	”事故后写 Postmortem 太慢”	使用 AI 模板生成初稿，人工补充细节	事故后 24-48 小时内完成
2	”小事故不需要 Postmortem”	小事故可能暴露系统性风险	设置事故等级阈值，但都记录
3	”Runbook 写一次就够了”	系统在变化，Runbook 需要持续更新	每次事故后审查相关 Runbook
4	”AI 不能处理真实事故”	AI 辅助标准化流程，人工做关键决策	AI 处理模板化工作，人做判断

六、安装与配置

# 通过 Claude Code 插件市场安装
/plugin marketplace add anthropics/skills
/plugin install incident-response@anthropic-agent-skills

# 手动安装
git clone https://github.com/anthropics/skills.git
cp -r skills/incident-response ~/.claude/skills/

七、总结

核心价值：

标准化事故响应流程
自动化 Postmortem 生成
Runbook 创建与维护
事故沟通模板

适用人群：

SRE 工程师 / DevOps / 技术 Lead

投入产出比：⭐⭐⭐⭐ —— 推荐安装

incident-response Skill 将 Google SRE 的事故管理最佳实践融入 AI Agent 工作流，适合希望标准化事故响应流程的工程团队。

参考资料

Anthropic Skills 官方仓库 — GitHub 仓库
Google SRE Book - Postmortem Culture — Google SRE 实践
Claude Code 官方文档 - Skills — 官方文档
Anthropic Postmortem 实践 — 官方博客

📦 快速安装

1 Git Clone

git clone https://github.com/JackyST0/awesome-agent-skills.git

2 开发模式

ln -s awesome-agent-skills/skills/incident-response ~/.claude/skills/incident-response