agent-skills
addyosmani/agent-skills 深度评测:Google Chrome 工程总监出品的 21 个核心 Skill
评分明细
适用场景
addyosmani/agent-skills 快速入门
Google Chrome 团队工程总监 Addy Osmani 沉淀的 21 个 Agent Skill,工程师文化与 AI 工作流的一次系统整合。
这是什么?解决什么问题?
addyosmani/agent-skills 是 Google Chrome 团队工程总监 Addy Osmani 在 GitHub 上开源的 21 个 Skill 集合,Star 数 37k+。它不同于”工具型 Skill”(比如 PDF 生成),更偏向”工程实践型 Skill”——告诉 AI 在面对某类任务时该怎么思考。
典型 Skill 包括:code-review-and-quality(代码评审)、test-driven-development(TDD)、systematic-debugging(系统化调试)、subagent-driven-development(子代理驱动开发)、brainstorming(需求头脑风暴)、writing-plans(计划撰写)、executing-plans(计划执行)、using-git-worktrees(工作树管理)、ci-cd-and-automation(CI/CD 自动化)、git-workflow-and-versioning(Git 工作流与版本管理)、debugging-and-error-recovery(调试与错误恢复)、performance-optimization(性能优化)、frontend-ui-engineering(前端 UI 工程)、security-and-hardening(安全加固)等等。
对小白来说,这套 Skill 把”Google 大厂怎么做工程”的经验压缩成 AI 能直接消费的提示词,避免你写出”能跑就行”的代码。Addy Osmani 作为 Chrome 团队工程总监,亲历了多个十亿用户级产品的演进,他沉淀的方法论不是空谈,而是被数十亿用户验证过的实战经验。
准备工作
- 支持 Agent:Claude Code(推荐)、Cursor、部分支持 Skills 协议的 Agent。
- 运行环境:Node.js / Python 基础环境(某些 Skill 调用脚本);Git 2.30+(支持 worktree 子命令)。
- Git 客户端:克隆仓库用,熟悉基本命令即可。
- 目标项目:已有代码库或新建一个都行,但大部分 Skill 在已有 repo 里更见效果。建议从一个中型项目开始,体验最佳。
- 基础心态:接受”AI 写代码 + 人工监督 + 流程约束”的协作模式,不要指望 AI 一次到位。
3 步快速上手
第 1 步:克隆仓库
git clone https://github.com/addyosmani/agent-skills.git
把整个仓库放到你的 Skills 加载目录,例如 ~/.claude/skills/agent-skills/。如果你用的是 Claude Code Marketplace 机制,也可以走 plugin 流程。
第 2 步:浏览 Skill 分类
仓库按类别组织:
ls agent-skills/
# 你会看到类似:code-review-and-quality/ test-driven-development/
# systematic-debugging/ writing-plans/ subagent-driven-development/ ...
每个子目录里有 SKILL.md,阅读它就知道该 Skill 在什么场景下被触发、依赖什么工具、与哪些 Skill 配合使用。建议第一次先读 README,作者有总览性的设计说明。
第 3 步:在 Claude Code 中触发
例如你写了段新功能,想让 AI 评审:
请使用 agent-skills 里的 code-review-and-quality Skill,以 Staff Engineer 视角评审我刚写的 src/auth.ts。
模型会自动按 Google 的代码评审规范(变更大小、命名、测试覆盖、可观测性、安全性)给出 Nit / Optional / FYI / Blocking 反馈。Blocking 是必须改的,Nit 是可改可不改的小问题。
常见踩坑
- 当工具库装错位置:Addy 的仓库是 Skills 集合,不是 npm 包,不能
npm install。需要cp -r到 Skills 加载目录。 - 混淆与 obra/superpowers 的差异:很多 Skill 名字相似(
code-review-and-quality、test-driven-development),但作者不同,采纳的细节规范有差异。建议二选一,不要混用,否则规则冲突。 - Skill 没自动触发:Skill 加载但模型不一定每次都触发,需要在 prompt 里显式点名。例如”请使用 agent-skills 里的 test-driven-development”。
- 上下文爆掉:21 个 Skill 全开,模型上下文会被吃光,挑当前任务相关的 3-5 个启用。每个 Skill 描述约 500-2000 token。
- 不读 SKILL.md 就用:每个 Skill 的边界条件不一样,先读 5 分钟文档能省 2 小时返工。
- 忽视 Frontmatter:Skill 自带的 YAML frontmatter 描述了触发关键词,改掉它 AI 就不认了。建议保留 frontmatter 原样。
初级用法
- 新功能落地流:brainstorming → writing-plans → executing-plans → code-review-and-quality,完整闭环。每个 Skill 各司其职,流程清晰。
- Bug 排查流:debugging-and-error-recovery + systematic-debugging 双 Skill 联动,先复现再根因,不直接改代码。
- 性能优化流:performance-optimization Skill 强制”先测量后优化”,避免凭直觉改代码。用 Chrome DevTools、Lighthouse、Bundle Analyzer 等工具量化。
高级玩法
- 子 Agent 编排:subagent-driven-development 把大型重构拆给多个子 Agent,带两阶段审查(合规性 + 代码质量)。子 Agent 各自有独立上下文,主 Agent 汇总结果。
- CI 集成:把 ci-cd-and-automation Skill 接入 GitHub Actions,自动生成工作流文件(.github/workflows/*.yml),并把”质量门禁”作为 required check。
- Git Worktree 隔离:using-git-worktrees + writing-plans 组合,让每个 Plan 任务跑在独立 worktree,主分支始终干净,合并冲突最小化。
小技巧
- 在 CLAUDE.md 里写”所有 PR 必须先经过 agent-skills 的 code-review-and-quality 评审”,AI 会形成习惯。这个软约束实际效果非常好。
- 用 systematic-debugging 排查时,把”我已经尝试过的方案”明确列出来,AI 不会重复低效尝试。例如”我已经重启过服务、清理过缓存、查看了日志”。
- TDD Skill 跑测试时,把测试框架的 watch 模式打开(
pytest --watch、vitest --watch),反馈最快。 - 仓库里
docs/目录有作者写的使用理念文章,值得通读一遍。这些文章讲的是”为什么这么设计”,比 SKILL.md 更有深度。 - 与 obra/superpowers 对比时,Addy 的更”工程实用派”,obra 的更”哲学严谨派”。两个都用会冲突规则,选一个深度使用。
常见问题 FAQ
Q1: 这个 Skill 跟 addyosmani/agent-skills 有什么关系?必须装吗?
A: Skill 是给 AI Agent 用的”技能包”,能告诉 Agent 怎么按特定规范工作。不是必须装——如果你的项目规模小、要求不高,不装也能用。但装上能让 Agent 输出的质量更高、更符合最佳实践,推荐装。
Q2: 这个 Skill 适合哪些 AI Agent?Cursor?Claude Code?其他?
A: addyosmani/agent-skills 来自 Google,主要面向支持 Skill 机制的 Agent。常见兼容 Agent 包括 Claude Code、Cursor、OpenCode、Windsurf 等。具体兼容性请查 Skill 官方文档。
Q3: 装了这个 Skill 后,会拖慢 Agent 响应吗?
A: 会的——Skill 通常会增加 prompt 长度,导致响应变慢、token 消耗增加。但质量提升明显。建议:1) 只装项目必需的 Skill;2) 用 Skill 启动/加载/卸载机制按需加载;3) 定期清理不用的 Skill。
Q4: 怎么验证 Skill 装对了?
A: 在 Agent 中输入”列出已加载的 Skill”或类似命令。如果 Skill 出现在列表里,说明装对了。然后用 Skill 跑一个相关任务,看输出是否符合 Skill 规范。
Q5: 这个 Skill 有许可证吗?能商用吗?
A: 取决于 addyosmani/agent-skills 的许可证。常见许可证包括 MIT(完全自由)、Apache-2.0(自由但有专利条款)、源可用(可看不能用)、GPL(强开源)。商用前请查仓库 LICENSE 文件。
进阶学习建议
如果想进一步用好 addyosmani/agent-skills,建议按以下路径学习:
第 1 周:熟练使用
- 完成 3 步快速上手,跑通第一个任务
- 试 2-3 个不同场景的真实任务
- 记录”哪些 prompt 有效、哪些没用”——形成自己的 prompt 笔记
第 2 周:理解机制
- 阅读 Skill 的官方文档(README、SKILL.md)
- 了解 Skill 的”触发关键词”和”输出格式”
- 学习”如何用更具体的描述触发 Skill”
第 3-4 周:组合使用
- 跟其他 Skill 组合(比如代码审查 + 性能优化)
- 跟其他 Agent 工具组合(Skill + MCP + 自定义脚本)
- 沉淀团队/个人的 Skill 库
长期:贡献社区
- 把自定义的 Skill 开源到 GitHub
- 提 PR 改进现有 Skill
- 写使用心得分享到 CSDN/掘金/知乎
推荐资源:
- 官方文档:https://github.com/addyosmani/agent-skills
- 官方仓库 README 里的 Examples
- 社区最佳实践:Anthropic 官方博客 https://www.anthropic.com/blog
- 国内社区:CSDN AI 板块、掘金 AI 板块
避免的坑:
- 不要装太多 Skill(超过 10 个会拖慢 Agent)
- 不要把 Skill 装在不兼容的 Agent 上
- 不要直接复制 Skill 默认 prompt——要根据项目调整
- 定期 review Skill 库的实用性,清理不用的
参考链接
- 官方仓库:https://github.com/addyosmani/agent-skills
- 作者 Twitter:https://twitter.com/addyosmani
- 作者博客:https://addyosmani.com/
- 配套文章:https://addyosmani.com/blog/agent-skills/
- 关联项目 obra/superpowers:https://github.com/obra/superpowers
- Chrome DevTools 团队博客:https://developer.chrome.com/blog
- 工程师方法论合集:https://addyosmani.com/blog/categories/engineering/
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
addyosmani/agent-skills 多维度简评
类别:工程方法论 / SDLC 全流程 来源:addyosmani/agent-skills 影响力:37k+ Stars,Google Chrome 团队工程总监 Addy Osmani 出品 维护者:Addy Osmani(Google Gemini 团队主管)
一、核心定位与价值
如果说 superpowers 是”行为控制系统”,那 addyosmani/agent-skills 就是”工程实践标准库”。
它把 Google 软件工程实践 沉淀为 21 个核心 Skill + 7 个 slash 命令 + 3 个专家角色人设,深度融合《Software Engineering at Google》工程实践(Hyrum 定律、测试金字塔、主干开发等)。
核心定位:
AI 编码 Agent 的生产级工程约束框架——通过标准化工作流、质量门禁与反合理化机制,让 AI 复刻资深工程师的研发决策逻辑,输出可直接上线的工业级代码。
二、四层架构
┌─────────────────────────────────────────┐
│ 入口层:7 个 Slash 命令 │
│ /spec /plan /build /test /review /... │
├─────────────────────────────────────────┤
│ 技能核心层:21 个核心 Skill │
│ 6 阶段 SDLC 分类 + 反合理化机制 │
├─────────────────────────────────────────┤
│ 角色层:3 个专家人设 │
│ code-reviewer / test-engineer / security-auditor │
├─────────────────────────────────────────┤
│ 参考层:4 套核查清单 │
│ Test / Security / Performance / Code Review │
├─────────────────────────────────────────┤
│ 适配层:兼容 9+ 主流 AI 编码工具 │
│ Claude Code / Cursor / Gemini CLI / ... │
└─────────────────────────────────────────┘
三、7 个 Slash 命令(开发周期全覆盖)
| 阶段 | 命令 | 核心原则 | 激活技能 |
|---|---|---|---|
| 定义 | /spec | 先规格后编码 | idea-refine, spec-driven-development |
| 规划 | /plan | 原子化小任务 | planning-and-task-breakdown |
| 构建 | /build | 一次一个切片 | incremental-implementation, TDD |
| 验证 | /test | 测试即证明 | test-driven-development, debugging |
| 审查 | /review | 代码健康优先 | code-review, security, performance |
| 简化 | /code-simplify | 清晰胜于巧妙 | code-simplification |
| 交付 | /ship | 更快即更安全 | git-workflow, CI/CD, shipping |
所有命令自动激活对应 Skill,无需手动选择。
四、21 个核心 Skill 详解(按 6 阶段分类)
4.1 Define 定义阶段(2 个)
idea-refine(想法提炼)
- 做什么:把模糊想法变成可执行方案
- 怎么做:Socratic 式发散→收敛
- 何时用:粗略概念需要探索
spec-driven-development(规格驱动开发)
- 做什么:写 PRD(目标、命令、结构、风格、测试、边界)
- 核心原则:无规格不编码
- 何时用:启动新项目、新功能、重大变更
4.2 Plan 规划阶段(1 个)
planning-and-task-breakdown(规划与任务拆解)
- 做什么:把规格拆分为小粒度、可验证、带验收标准的任务
- 关键点:明确依赖顺序、避免大变更风险
- 何时用:有了规范,需要拆分成可执行单元
4.3 Build 构建阶段(6 个)
incremental-implementation(增量实现)
- 做什么:垂直切片开发,提交-测试-验证闭环
- 特性:支持特性开关、安全默认值、可回滚变更
test-driven-development(测试驱动开发)
- 做什么:红-绿-重构流程
- 遵循:测试金字塔(80/15/5)、DAMP 优于 DRY、Beyonce 规则
context-engineering(上下文工程)
- 做什么:在正确时间给 AI 正确信息
- 适用:规则文件、上下文打包、MCP 集成
- 何时用:开始会话、切换任务、输出质量下降时
source-driven-development(源码驱动开发)
- 做什么:所有框架决策基于官方文档
- 关键:验证、引用来源,标记未验证内容
- 何时用:需要权威的、基于官方文档的框架代码
frontend-ui-engineering(前端 UI 工程)
- 做什么:组件架构、设计系统、状态管理、响应式设计
- 标准:WCAG 2.1 AA 无障碍
api-and-interface-design(API 与接口设计)
- 做什么:契约优先设计、Hyrum 定律、One Version 规则
- 关键:错误语义、边界验证
- 何时用:设计 API、模块边界、公共接口
4.4 Verify 验证阶段(2 个)
browser-testing-with-devtools(浏览器测试)
- 做什么:基于 Chrome DevTools MCP
- 获取:实时 DOM 检查、控制台日志、网络追踪、性能分析
debugging-and-error-recovery(调试与错误恢复)
- 做什么:五步分诊:复现 → 定位 → 简化 → 修复 → 防护
- 原则:止损规则、安全降级
- 何时用:测试失败、构建出错、行为异常
4.5 Review 审查阶段(4 个)
code-review-and-quality(代码审查)
- 做什么:五轴审查、变更限 100 行内
- 标签:Nit / Optional / FYI 分级
code-simplification(代码简化)
- 做什么:Chesterton 围栏、500 行规则
- 原则:保留行为同时降低复杂度
security-and-hardening(安全加固)
- 做什么:防御 OWASP Top 10、认证模式、密钥管理、依赖审计
- 架构:三层边界系统
performance-optimization(性能优化)
- 做什么:先测量后优化
- 目标:Core Web Vitals 目标、分析打包体积、性能反模式检测
4.6 Ship 交付阶段(5 个)
git-workflow-and-versioning(Git 流程)
- 核心:Trunk 开发、原子提交、提交即保存点模式
- 原则:控制变更规模
ci-cd-and-automation(CI/CD 自动化)
- 原则:左移测试、更快更安全
- 特性:功能标记、质量门禁流水线、快速反馈失败
deprecation-and-migration(废弃与迁移)
- 理念:代码即负债
- 规范:强制/建议弃用、迁移模式、僵尸代码清理
documentation-and-adrs(文档与架构决策记录)
- 做什么:记录架构决策原因
- 包含:API 文档、内联文档标准
- 原则:记录”为什么”,而不只是”做了什么”**
shipping-and-launch(发布与上线)
- 检查清单:功能标记生命周期、分阶段发布、回滚机制、监控配置
五、3 个专家角色人设
👨💻 code-reviewer(高级 Staff 工程师)
- 视角:Senior Staff Engineer 五轴审查
- 标准:“Staff 工程师会批准这个吗?”
🧪 test-engineer(QA 专家)
- 视角:测试策略、覆盖分析、Prove-It 模式
- 原则:“证明给我看”
🔒 security-auditor(安全工程师)
- 视角:漏洞检测、威胁建模、OWASP ASVS 评估
- 集成:内部红蓝对抗 checklist
用法:在对话中启用对应角色,AI 会按这个视角工作。
六、Skill 标准结构(每个 Skill 都遵循)
┌─────────────────────────────────┐
│ SKILL.md │
│ │
│ ┌─ Frontmatter ──────────────┐ │
│ │ name: lowercase-hyphen-name │ │
│ │ description: Guides agents │ │
│ │ through [task]. Use when… │ │
│ └─────────────────────────────┘ │
│ 概述 → 这个技能做什么 │
│ 使用时机 → 触发条件 │
│ 流程 → 分步工作流 │
│ 合理化借口 → 常见借口+反驳 │
│ 危险信号 → 异常的标志 │
│ 验证 → 需要的证据 │
└─────────────────────────────────┘
两个核心创新:
- 反合理化机制:每个 Skill 都包含 AI 常用的跳过步骤借口(“我之后再加测试”),并提前写好反驳
- 不可妥协的验证:所有 Skill 以可量化证据为验收标准
七、安装指南
7.1 Claude Code
# 官方市场
/plugin marketplace add addyosmani/agent-skills
/plugin install agent-skills@addy-agent-skills
# HTTPS 备份(避免 SSH 错误)
/plugin marketplace add https://github.com/addyosmani/agent-skills.git
/plugin install agent-skills@addy-agent-skills
7.2 Cursor
# 复制 skill 文件到 .cursor/rules/
cp -r skills/* .cursor/rules/
7.3 Gemini CLI
gemini skills install https://github.com/addyosmani/agent-skills.git --path skills
7.4 其他工具
- Windsurf:添加 skill 内容到 Windsurf 规则配置
- OpenCode:通过 AGENTS.md + skill 工具调用
- GitHub Copilot:使用
agents/作为 persona,写入copilot-instructions.md - Kiro:技能存放在
.kiro/skills/ - Codex:技能是纯 Markdown,可用于任何接受系统提示的 Agent
八、推荐最小组合(官方建议)
如果你不想全装,官方推荐的最小组合:
spec-driven-development + test-driven-development + code-review-and-quality
理由:一次性全装虽然”更全面”,但会增加上下文负担,让 Agent 更容易分散重点。按任务动态加载既能控制成本也更贴近真实工作流。
九、实战示例:完整 6 阶段流程
任务:开发”用户登录功能”
1. /spec
→ AI 输出 PRD:目标、API 设计、安全要求、测试边界
2. /plan
→ 拆分为 8 个小任务,每个 2-5 分钟
3. /build
→ 按任务实现,激活 incremental-implementation
→ 自动启用 frontend-ui-engineering(如涉及 UI)
→ 自动启用 api-and-interface-design(设计 API 时)
4. /test
→ 强制 TDD:先红后绿
→ 覆盖:单测 + 集成 + E2E
5. /review
→ 五轴审查(变更 < 100 行)
→ 启用 security-auditor 角色做安全审查
→ 启用 test-engineer 角色验证覆盖
6. /code-simplify(可选)
→ Chesterton 围栏
→ 500 行规则
7. /ship
→ Trunk 开发、原子提交
→ CI/CD 自动跑测试
→ 灰度发布、回滚机制就绪
十、关键设计原则(来自 Google 工程实践)
- 流程优先于文本:技能是可执行工作流
- 反合理化约束:内置借口-反驳机制
- 验证不可妥协:以可量化证据为验收
- 渐进式信息披露:按需加载参考文档
- 谷歌工程文化落地:Hyrum 定律、测试金字塔、主干开发
十一、5 条核心使用建议
- 从最小组合开始:3 个 Skill 起步,逐步扩展
- 每个任务前明确阶段:不要从 Build 直接开始
- 利用专家角色:审查阶段必启用 security-auditor
- 关注反合理化表:这是该 Skill 区别于普通提示词的核心
- 证据链不可省:测试通过 ≠ 任务完成
十二、常见 Q&A
Q: 和 superpowers 区别? A: superpowers 是”强制行为控制系统”,agent-skills 是”工程实践标准库”。前者更严,后者更全。可以一起用。
Q: 适合中文项目吗? A: 适合。Skill 是流程和最佳实践,与语言无关。
Q: 大模型推荐? A: Sonnet 4.6 性价比最高,Opus 4.6 复杂任务效果更好。
Q: 怎么升级?
A: 重新 /plugin install 即可,覆盖更新。
Q: 团队怎么标准化?
A: 把 /spec /plan /build /test /review /ship 命令加到 CLAUDE.md,新人即会。
十三、总结
addyosmani/agent-skills 是 Google 工程实践的 AI 化沉淀,覆盖完整 SDLC。
核心价值:
- 让 AI 不再”会写原型代码”,而是”能输出可维护、安全、生产级代码”
- 把资深工程师最佳实践变成 AI 可自动遵循的标准流程
- 团队统一规范的最佳载体
适用人群:
- ✅ 严肃工程项目(必须有测试、安全、性能)
- ✅ 团队统一流程(避免”AI 输出五花八门”)
- ✅ 中长期维护项目(避免技术债)
- ❌ 一次性脚本(杀鸡用牛刀)
投入产出比:⭐⭐⭐⭐⭐(5/5)——严肃开发必装。
配套文档:anthropics/skills 多维度简评 | obra/superpowers 多维度简评 | Vercel react-best-practices 多维度简评
参考资料
- addyosmani/agent-skills GitHub 仓库
- Software Engineering at Google (O’Reilly)
- Google Testing Blog
- Anthropic Agent Skills 官方文档
- 稀土掘金 Agent Skills 评测
十四、项目背景与权威性
14.1 Addy Osmani 何许人也
Addy Osmani 是 Google Chrome 团队的工程负责人,长期关注开发效率、工程质量和前端架构。他是 AngularJS 联合创始人之一,在前端工程化领域有 15+ 年经验。
关键履历:
- Google Chrome 团队工程总监
- 前端性能优化领域权威(写过《Image Optimization》《The Cost of JavaScript》等)
- Google Lighthouse 核心贡献者
- 多个开源项目 maintainer(Yeoman、Material Design Lite 等)
与本项目的关系:Addy Osmani 在 2026 年 2 月发布 addyosmani/agent-skills 项目,首次把 Google 二十年的工程实践封装成 AI 可执行的技能模块。
14.2 项目数据(2026 Q1)
| 指标 | 数值 | 来源 |
|---|---|---|
| GitHub Stars | 26,133 | 2026-04-30 |
| 当前 Stars | 37,000+ | 2026 Q2 |
| Forks | 2,600+ | 2026 Q2 |
| Contributors | 130+ | GitHub 统计 |
| 最新版本 | v0.5.0 | 2026-04-10 |
| 协议 | MIT | 完全开源 |
14.3 核心定位
Production-grade engineering skills for AI coding agents 面向 AI 编程智能体的生产级工程能力库
核心理念:让 Claude Code、Cursor、Windsurf 等主流 AI 编程工具在工程成熟度上直接对齐 Google 标准。
参考: 稀土掘金 Agent Skills 评测 | 博客园 PetterLiu
十五、为什么需要 Agent Skills?——AI 编程的工程债务危机
15.1 AI 编程工具的能力边界
当前主流 AI 编程工具(Claude Code、Cursor、Windsurf、GitHub Copilot)在代码生成这个维度已经非常强大。它们能够:
- 根据自然语言描述生成完整函数/模块
- 理解现有代码库并做增量修改
- 调试报错并给出修复建议
- 重构代码以改善可读性和性能
但如果你观察一个使用 AI 编程工具的团队在真实项目中的表现,会发现一个系统性偏差:功能产出很快,工程债务积累更快。
15.2 工程维度的偏差(对比表)
| 工程维度 | 理想状态 | AI 实际行为 |
|---|---|---|
| 测试覆盖 | 每个函数有对应单元测试 | 几乎不主动写测试,除非明确要求 |
| 代码审查 | 有结构化 Review 流程 | 不存在,AI 直接提交 |
| 提交规范 | 原子性提交,描述清晰 | 一个提交塞进几十个改动 |
| 安全审计 | 依赖检查、漏洞扫描 | 不主动触发 |
| API 设计 | 遵循向后兼容原则 | 功能对了就行,不考虑版本 |
| 文档维护 | 随代码更新 | 不写注释,不更新 README |
这并不是 AI 工具的 Bug——这是设计优先级的问题。AI 工具的优化目标是”功能正确”,而非”工程健康”。
15.3 工程债务的复利效应
软件工程的债务具有复利特征。单个测试、单个 Review 看起来是小事,但当项目积累到一定规模,这些”省掉”的工程步骤会形成系统性的质量塌陷:
没有测试
→ 重构时无法确认影响范围
→ 重构成本指数级上升
→ 团队不敢动老代码
→ 技术债锁定
没有代码 Review
→ 风格不一致、知识不传递
→ 新人上手周期拉长
→ 团队协作效率下降
没有提交规范
→ 回滚困难、Bisect 失效
→ 线上故障处理时间增加
这就是为什么很多团队在引入 AI 编程工具后,发现”前期很快,后期很慢” ——AI 帮团队快速产出功能,同时也在快速积累工程债务。
15.4 Addy Osmani 的洞察
“AI coding agents default to the shortest path — which often means skipping specs, tests, security reviews, and the practices that make software reliable.” “AI 编码助手默认走最短路径 —— 这通常意味着跳过规格、测试、安全审查,以及那些让软件可靠的最佳实践。”
参考: CSDN Google 工程总监开源 | 博客园 霍格沃兹测试学院
十六、核心架构解析
16.1 三层架构:Define → Build → Ship
Agent Skills 的整体设计遵循软件工程的经典三段式:
DEFINE ──▶ BUILD ──▶ SHIP
Define(定义) 解决”做什么”:
- idea-refine:将模糊想法转化为结构化提案
- spec-driven-development:编写 PRD,覆盖目标、接口结构、代码风格、测试策略
Build(构建) 解决”怎么做”:
- planning-and-task-breakdown:将 Spec 分解为可验证的小任务
- incremental-implementation:垂直切片开发,小步提交
- test-driven-development:红绿重构、测试金字塔
- context-engineering:正确的上下文注入时机和方式
- source-driven-development:以官方文档为依据而非经验
- frontend-ui-engineering:组件架构、设计系统、无障碍
- api-and-interface-design:契约优先设计、Hyrum 法则
Ship(发布) 解决”如何发布”:
- browser-testing-with-devtools:Chrome DevTools MCP 集成
- debugging-and-error-recovery:五步调试法
- code-review-and-quality:五轴 Review
- code-simplification:切维森栅栏、500 行法则
- security-and-hardening:OWASP Top 10
- performance-optimization:Core Web Vitals
- git-workflow-and-versioning:基于主干的开发
- ci-cd-and-automation:左移、质量门禁
- deprecation-and-migration:代码即负债思维
- documentation-and-adrs:决策记录
- shipping-and-launch:发布检查清单
16.2 7 个 Slash 命令(自然语言激活)
| 命令 | 激活技能 | 使用场景 |
|---|---|---|
/spec | spec-driven-development | 写规格 |
/plan | planning-and-task-breakdown | 拆任务 |
/build | incremental-implementation + 相关领域 | 写代码 |
/test | test-driven-development | 写测试 |
/review | code-review-and-quality | 审代码 |
/code-simplify | code-simplification | 简化 |
/ship | shipping-and-launch | 上线 |
用户不需要每次都写一大段提示词,直接
/spec就启动完整规格化流程。
16.3 反合理化机制(Anti-Rationalization)
这是 Agent Skills 中最有价值的创新设计之一——为每个技能配备了”常见借口表”。
例如 test-driven-development 技能中,AI 常见的合理化借口 + 正确反驳:
| AI 常见借口 | 正确反驳 |
|---|---|
| ”功能很简单,不需要测试” | 测试的目的是证明代码能做它应该做的事,不是证明代码”简单" |
| "我会在后面加上测试” | 后续测试的覆盖率平均只有 TDD 的 30%,且测试质量显著更低 |
| ”手动测试过了” | 手动测试不能防止未来的回归,是一次性消耗 |
Agent Skills 要求 AI 必须先提供可验证的证据(测试通过、构建成功、Runtime 数据),而不是凭直觉判断”看起来没问题”。
16.4 Skill 解剖结构
每个 Skill.md 都遵循统一结构:
---
name: skill-name
description: 指导 Agent 完成[任务]。当[某些条件]时使用。
---
## Overview → 技能概述
## When to Use → 触发条件
## Process → 步骤 1、步骤 2、步骤 3...
## Rationalizations → 借口表 + 反驳
## Red Flags → 警告信号
## Verification → 证据要求(必须通过什么才能结束)
这种结构确保 AI 在每个技能的执行过程中都有清晰的”退出标准”,而不是”完成了感觉不错”。
十七、20 个核心 Skill 详解
17.1 Define 阶段(2 个)
1. idea-refine(想法精化)
作用:通过发散、收敛与假设验证,将模糊想法转化为明确的问题定义、目标用户、MVP 范围和不做事项。 触发时机:拿到新需求、PM 提需求、客户想法。 核心价值:避免 AI 基于错误理解往下写。
2. spec-driven-development(规格驱动开发)
作用:在编码前建立规格说明,明确目标、边界、技术约束、验收标准和测试方式。
触发时机:中大型功能、新项目启动。
核心创新:禁止在需求模糊时直接编码。
输出物:docs/specs/<feature>.md,包含 8 大模块:目标 / 命令 / 项目结构 / 代码风格 / 测试策略 / 边界 / 成功标准 / 假设清单。
17.2 Plan 阶段(1 个)
3. planning-and-task-breakdown(规划与任务分解)
作用:将规格拆解为小型、可排序、可验证的任务单元,明确依赖、验收条件和检查点。 粒度:每个任务 2-5 分钟。 输出物:有向无环图(DAG)形式的任务清单。
17.3 Build 阶段(8 个)
4. incremental-implementation(增量实现)
核心原则:薄切片(thin slice) —— 一次只实现一个端到端功能,完整可运行。 优势:系统始终处于可工作状态,易于回滚。
5. test-driven-development(测试驱动开发)
TDD 三阶段:Red → Green → Refactor。 关键规则:没有失败的测试,严禁编写生产代码。
6. context-engineering(上下文工程)
理念:Context Window 是 LLM 的核心约束,管理好它比”选更好的模型”更重要。 原则:
- 只在必要时引入上下文
- 用 RAG 减少全量加载
- 控制每个文件的 token 数
7. source-driven-development(源驱动开发)
核心理念:以官方文档为依据,而不是经验。 应用:调用新库 API 时,先 fetch 官方文档,基于当前版本决策。
8. frontend-ui-engineering(前端 UI 工程)
核心理念:默认无样式;不写默认 AI 风。 关键产出:组件 + 故事 + 测试 + 文档。
9. api-and-interface-design(API 与接口设计)
核心原则:契约优先。 包含 Hyrum 法则:
一个 API 拥有的用户越多,当你对它做任何改变时,即使是无害的改变,也越可能破坏某人的系统。
10. planning-and-task-breakdown(规划与任务分解)
特色:带验收条件、依赖关系、风险评估的精细任务清单。
11. context-engineering(上下文工程)
关注点:Context Window 的有效管理。
17.4 Verify 阶段(2 个)
12. browser-testing-with-devtools(浏览器测试)
核心集成:Chrome DevTools MCP —— 通过 DOM、控制台、网络、性能数据真实验证。 反 AI 推断:不是看代码推测,是真实运行数据。
13. debugging-and-error-recovery(调试与错误恢复)
5 步法:
- 复现
- 定位
- 缩小范围
- 修复
- 防回归
17.5 Review 阶段(3 个)
14. code-review-and-quality(代码审查与质量)
5 维度:正确性 / 可读性 / 架构 / 安全 / 性能。 输出:Critical / Important / Minor 三级分类。
15. code-simplification(代码简化)
原则:清晰优于炫技。 切维森栅栏规则:不增加复杂度。 500 行法则:单文件不超过 500 行。
16. security-and-hardening(安全加固)
OWASP Top 10 完整覆盖。 强制约束:不可信输入、认证授权、敏感数据、依赖、密钥、外部集成。
17.6 Ship 阶段(4 个)
17. git-workflow-and-versioning(Git 工作流与版本)
核心实践:
- 短分支
- 原子提交
- Conventional Commits
- 保存点管理
18. ci-cd-and-automation(CI/CD 与自动化)
左移原则:质量门禁左移到代码提交时。 自动化流水线:lint → 类型 → 测试 → 构建 → 安全 → 部署。
19. deprecation-and-migration(弃用与迁移)
理念:代码即负债。 强制流程:替代方案 + 迁移路径 + 使用量验证 + 最终清理。
20. documentation-and-adrs + shipping-and-launch(文档 + 发布)
决策记录(ADR):架构决策的背景、约束、权衡。 发布清单:灰度发布、feature flag、监控、回滚预案。
参考: CSDN 20 个核心技能 | 博客园 项目介绍
十八、量化效果对比
18.1 关键指标(2026 Q1 社区数据,n=500)
| 指标 | 无 Agent Skills | 有 Agent Skills | 提升 |
|---|---|---|---|
| 单元测试覆盖率 | 18% | 67% | +272% |
| PR 包含测试的比率 | 23% | 81% | +252% |
| 一次 Commit 变更行数 | ~380 行 | ~95 行 | -75% |
| Review 轮次中位数 | 4.2 轮 | 1.8 轮 | -57% |
| 提交信息规范率(Conventional Commits) | 31% | 88% | +184% |
数据来源:Agent Skills 项目 README 引用的用户报告(2026 年 3 月)。建议读者自行验证。
18.2 TDD 实战对比
任务: 写一个 validateEmail(email: string): boolean 函数
❌ 使用 Agent Skills 之前(默认行为)
// Claude 直接生成,约 30 秒完成
function validateEmail(email: string): boolean {
const regex = /^[^\s@]+@[^\s@]+\.[^\s@]+$/;
return regex.test(email);
}
- 没有测试
- 没有边界条件分析
- 没有验证
✅ 使用 Agent Skills 之后(/test 命令激活 TDD)
Step 1: 明确验收标准
- 基础格式:
local@domain.tld - 本地部分:字母、数字、点、下划线、加号
- 域名部分:至少一个点
- 返回值:boolean
- 不在范围:IP 地址邮箱、Unicode 邮箱
Step 2-4:Red → Green → Refactor 完整流程
结果:
- ✅ npm test 通过
- ✅ 边界条件覆盖(空白字符串、超长输入、特殊字符、无 @、多 @)
- ✅ 代码覆盖率 95%
参考: CSDN 完整实战案例
十九、与其他方法论 Skill 的对比
| 维度 | addyosmani/agent-skills | obra/superpowers | Anthropic Skills |
|---|---|---|---|
| 核心理念 | 浏览器/前端最佳实践 | 工程方法论 | 工具集 |
| 来源 | Google 20 年实践 | 《影响力》+ TDD | Anthropic 内部 |
| 强制性 | ⚠️ 建议性 | ✅ 强制触发 | ⚠️ 建议性 |
| 学习方法 | 读 SKILL.md | 读 SKILL.md | 读 SKILL.md |
| 学习曲线 | 低 | 中 | 极低 |
| 命令 | 7 个 slash | 14 个 Skill | 18 个 Skill |
| Stars | 37k+ | 34k+ | 108k+ |
| 强项 | 浏览器/前端 | 复杂工程 | 文档/工具 |
| 适合项目 | 中-大型 | 复杂/长期 | 任何 |
最佳实践:三者协同 —— Anthropic 提供工具 + addyosmani 提供浏览器实践 + superpowers 提供流程纪律。
参考: CSDN 多项目对比 | 掘金 Skills 生态
二十、实战部署案例
20.1 案例 1: GitHub Actions + Agent Skills 自动化 Issues 分类
背景:200 人研发团队,从无 AI 编程到 Agent Skills 标准化 实施:
- 第 1 周:培训 + 装 Agent Skills
- 第 2-4 周:用 /spec + /plan 重构 5 个老项目
- 第 5-6 周:全面 TDD
- 第 7-8 周:引入 /review 流程 结果:
- Bug 率下降 50%
- 需求变更响应时间 -40%
- 开发者满意度 +35%
20.2 案例 2:独立开发者
1 人团队,3 个月连续开发 AI 写作 SaaS 用 addyosmani + Claude Opus 4.6 平均每天交付 1.5 个功能 零重大 bug 漏到生产
20.3 案例 3:开源项目
某 React 组件库,5 个维护者 用 /review 自动审 PR 每周节省 8 小时人工审查
参考: 博客园 霍格沃兹测试学院 | CSDN 实战案例
二十一、给测试团队的启发
21.1 测试开发的本质转型
未来我们也可以设计自己的测试命令:
/testcase-review/api-test-design/ui-auto-generate/performance-analysis/bug-root-cause/release-quality-check/llm-eval/rag-test
这些命令背后不是一句 Prompt,而是一套完整测试流程。
21.2 仿造 Agent Skills 的目录结构
test-agent-skills/
├── skills/
│ ├── testcase-review/
│ │ └── SKILL.md
│ ├── api-test-design/
│ │ └── SKILL.md
│ ├── ui-automation-generation/
│ │ └── SKILL.md
│ ├── bug-root-cause-analysis/
│ │ └── SKILL.md
│ └── release-quality-check/
│ └── SKILL.md
├── agents/
│ ├── test-engineer.md
│ ├── automation-engineer.md
│ ├── performance-engineer.md
│ └── quality-reviewer.md
├── commands/
│ ├── testcase-review.md
│ ├── api-test.md
│ ├── ui-auto.md
│ ├── bug-analysis.md
│ └── release-check.md
├── references/
│ ├── testcase-checklist.md
│ ├── api-test-checklist.md
│ ├── ui-auto-checklist.md
│ ├── performance-checklist.md
│ └── release-checklist.md
└── README.md
参考: 博客园 霍格沃兹测试学院
二十二、未来发展(2026-2027)
22.1 短期(2026 Q3-Q4)
- v1.0 稳定版:从 0.5.0 快速迭代
- 企业版:团队协作 + 审计日志
- IDE 深度集成:VSCode 插件、JetBrains 插件
22.2 中期(2027)
- 多 Agent 协作:skill 间自动编排
- Skill 自进化:基于使用数据自动优化
- 性能基准:像 MLPerf 一样的标准评测
22.3 长期愿景
“让 AI 写代码,像 Google Senior Engineer 一样靠谱。“
二十三、参考链接(完整版)
23.1 官方资源
- addyosmani/agent-skills GitHub ⭐ 37k+
- Addy Osmani 官方博客
- Google 工程实践指南
- 《Software Engineering at Google》 - O’Reilly
- Lighthouse 项目
23.2 中文深度分析
- CSDN Google 工程总监开源 - 21.4k stars 时代
- 稀土掘金 Agent Skills 评测 - 26k stars 评测
- 博客园 PetterLiu 开源介绍 - 6 阶段 + 20 技能
- 博客园 霍格沃兹测试学院 - 测试开发启发
- PHP 中文网 Agent Skills 介绍
- CSDN 完整解析 - TDD 实战对比
23.3 工程方法学
23.4 相关工具与生态
23.5 对比项目
- obra/superpowers ⭐ 34k+
- anthropics/skills ⭐ 108k+
- trailofbits/skills ⭐ 3k+
- awesome-claude-code
最后:addyosmani/agent-skills 不是让 AI 变聪明,而是让 AI 变靠谱。对于严肃工程项目,这是零成本、高回报的工程成熟度升级。
十七、常见问题 FAQ
17.1 什么是 Skills?
Skills 是打包在文件夹中的一组指令,用于教 Claude 如何处理特定任务或工作流。通过 Skills,用户无需在每次对话中重复解释偏好、流程和专业知识。
17.2 Skills vs Subagents vs MCP?
| 维度 | Skills | Subagents | MCP |
|---|---|---|---|
| 形式 | 指令/Markdown | AI 代理 | 协议 |
| 触发 | Claude 自动调用 | 委派/手动 | 工具调用 |
| 上下文 | 共享/独立 | 独立 | 独立 |
| 适合 | 流程模板 | 复杂任务 | 工具集成 |
17.3 如何选择 Skill?
- 重复工作流 → Skill
- 复杂多步骤 → Subagent
- 外部 API → MCP
- 结合使用 → Skill 编排 Subagent + MCP
17.4 Skills 在哪些平台可用?
- Claude Code
- Claude.ai
- Cursor
- OpenCode
- OpenClaw
- GitHub Copilot
- Windsurf
- Cline
- Roo Code
- Kiro
- Junie
- Augment Code
- Warp
- Goose
17.5 Skill 大小有限制吗?
- description:≤ 1024 字符(开放) / ≤ 1536 字符(Claude Code)
- SKILL.md:建议 < 500 行
- 完整加载:≤ 5,000 token
- 总大小:无硬性限制,建议 < 1MB
17.6 如何让 Skill 真正被触发?
- description 主动:写明触发词
- 排除条款:说明什么时候不用
- 示例:在 SKILL.md 里放 2-3 个 Input/Output 示例
- 测试:跑 5-10 个真实场景
17.7 8 个参考链接
- Anthropic Skills 官方
- 简书 Claude Code Skills 完整指南
- CSDN 14 个 Skill 设计模式
- CSDN Vibe Coding 实战
- 腾讯网 Skill 创建完全指南
- Anthropic Lessons from Claude Code
- Superpowers 实战
- OpenSkills 仓库
十八、结语:Skills 改变的不只是工作流
来自 腾讯网 Anthropic 内部 Skill 方法论 收尾洞察:
“Skill 本质上是在做 Context Engineering。”
当 5 年后我们回望 2026,会发现:
- Skills 重新定义了”软件工程”——从代码到流程
- Skills 重新定义了”团队”——从人到 AI 协作者
- Skills 重新定义了”个人成长”——每个 Skill 都是一次能力跃迁
未来属于那些能写出好 Skill 的人。
写一个 Skill,送给未来的自己。
本评测基于公开资料整理,部分案例为综合性示意。所有引用链接见上文”参考”章节。
快速安装
git clone https://github.com/addyosmani/agent-skills.git