PDF 提取、合并、拆分、OCR、表单填写、加密/解密、加水印。
评分明细
适用场景
anthropic-pdf 快速入门
Anthropic 官方 PDF 处理 Skill,把”AI 读 PDF / 改 PDF / 生成 PDF”这件事做成开箱即用的工具集。
这是什么?解决什么问题?
anthropic-pdf 是 Anthropic 在 anthropics/skills 仓库中维护的 PDF 处理 Skill,与 docx/xlsx/pptx 并列。它基于 pypdf、pdfplumber、reportlab 多个 Python 库协同工作,覆盖六大场景:文本/表格提取、PDF 合并/拆分、OCR(扫描件识别)、表单字段读写、加密/解密、加水印。
对小白来说,以前处理 PDF 是一道墙:PDF 是二进制,AI 没法直接”读”。有了这个 Skill,你可以用自然语言说”把这 100 份合同里的甲方信息提取成 Excel”,AI 会自动跑 pdfplumber 提取文本、识别表格、生成结构化数据。读 PDF、合并 PDF、给 PDF 加水印,从此跟说话一样简单。
准备工作
- 支持 Agent:Claude Code(主推)、支持 Skills 协议的 Agent。
- 运行环境:Python 3.10+;
pip install pypdf pdfplumber reportlab。 - 可选工具:Tesseract OCR(扫描件识别)、qpdf(高级 PDF 操作)。
- 目标场景:合同审阅、报告抽取、扫描件数字化、表单批量填写、PDF 加密/解密。
3 步快速上手
第 1 步:安装依赖
pip install pypdf pdfplumber reportlab
# 可选:扫描件 OCR
brew install tesseract # macOS
# 或
apt-get install tesseract-ocr # Ubuntu
克隆 Skill:
git clone https://github.com/anthropics/skills.git
cp -r skills/pdf ~/.claude/skills/
第 2 步:在 Claude Code 中描述任务
claude
发起任务:
请用 pdf Skill 帮我把 contracts/*.pdf 里第 3 页的"甲方信息"表提取出来,合并成一份 Excel。
AI 会按页码定位、用 pdfplumber 解析表格、调用 xlsx Skill(如果已加载)导出。
第 3 步:验证产物
# 把生成的 Excel 转回 PDF 校验
libreoffice --headless --convert-to pdf extracted.xlsx
常见踩坑
- 扫描件没有 OCR:PDF 里的图默认是图片,pdfplumber 提取出来是空。必须先跑 Tesseract OCR。
- 加密 PDF 读不了:先用
pypdf解密:reader.decrypt(password),否则直接报”file has not been decrypted”错误。 - 表格跨页被切:pdfplumber 默认按单页解析,跨页表格需要在 prompt 里明确说”拼接所有页的同表头行”。
- 中文字体乱码:reportlab 生成 PDF 时不指定中文字体会出方块,要用
reportlab.pdfbase注册 TTF 字体。 - 表单字段名读不出:PDF 表单字段名是 FDF 格式,有些加密表单要
qpdf --decrypt先解密。 - 大文件内存爆掉:300MB 以上的 PDF 用
pypdf流式读取,一次性PdfReader(file)会 OOM。
初级用法
- 合同信息抽取:把几百份 PDF 合同的关键字段(甲方、金额、日期)抽到 Excel。
- PDF 合并/拆分:把多个章节 PDF 合成一本书,或把一个 500 页报告按章节拆。
- 加水印:批量给内部 PDF 加”机密”水印,防止外泄。
高级玩法
- 表单自动填写:Skill 支持读取 PDF AcroForm 字段,批量把 JSON 数据填进表单。
- PDF/A 合规归档:用
pdf/A模式生成长期可读的归档格式。 - OCR + 翻译流水线:扫描件 OCR → 翻译 → 重新排版 → 输出双语 PDF,Skill 可串成一条命令。
小技巧
- 处理中文 PDF 时,把 OCR 语言包
chi_sim装上,准确率显著提升。 - 加密/解密测试时,先用一份已知密码的样本文件验证流程。
- 大批量任务建议分批处理(每 50 份一组),失败可重试。
pdfplumber比pypdf表格解析更强,但纯文本pypdf更快,合理选型。- 关注 PDF 规范演进(PDF 2.0),Skill 内部会跟进支持,新需求建议先看文档。
常见问题 FAQ
Q1: 这个 Skill 跟 anthropic-pdf 有什么关系?必须装吗?
A: Skill 是给 AI Agent 用的”技能包”,能告诉 Agent 怎么按特定规范工作。不是必须装——如果你的项目规模小、要求不高,不装也能用。但装上能让 Agent 输出的质量更高、更符合最佳实践,推荐装。
Q2: 这个 Skill 适合哪些 AI Agent?Cursor?Claude Code?其他?
A: anthropic-pdf 来自 Anthropic,主要面向支持 Skill 机制的 Agent。常见兼容 Agent 包括 Claude Code、Cursor、OpenCode、Windsurf 等。具体兼容性请查 Skill 官方文档。
Q3: 装了这个 Skill 后,会拖慢 Agent 响应吗?
A: 会的——Skill 通常会增加 prompt 长度,导致响应变慢、token 消耗增加。但质量提升明显。建议:1) 只装项目必需的 Skill;2) 用 Skill 启动/加载/卸载机制按需加载;3) 定期清理不用的 Skill。
Q4: 怎么验证 Skill 装对了?
A: 在 Agent 中输入”列出已加载的 Skill”或类似命令。如果 Skill 出现在列表里,说明装对了。然后用 Skill 跑一个相关任务,看输出是否符合 Skill 规范。
Q5: 这个 Skill 有许可证吗?能商用吗?
A: 取决于 anthropic-pdf 的许可证。常见许可证包括 MIT(完全自由)、Apache-2.0(自由但有专利条款)、源可用(可看不能用)、GPL(强开源)。商用前请查仓库 LICENSE 文件。
进阶学习建议
如果想进一步用好 anthropic-pdf,建议按以下路径学习:
第 1 周:熟练使用
- 完成 3 步快速上手,跑通第一个任务
- 试 2-3 个不同场景的真实任务
- 记录”哪些 prompt 有效、哪些没用”——形成自己的 prompt 笔记
第 2 周:理解机制
- 阅读 Skill 的官方文档(README、SKILL.md)
- 了解 Skill 的”触发关键词”和”输出格式”
- 学习”如何用更具体的描述触发 Skill”
第 3-4 周:组合使用
- 跟其他 Skill 组合(比如代码审查 + 性能优化)
- 跟其他 Agent 工具组合(Skill + MCP + 自定义脚本)
- 沉淀团队/个人的 Skill 库
长期:贡献社区
- 把自定义的 Skill 开源到 GitHub
- 提 PR 改进现有 Skill
- 写使用心得分享到 CSDN/掘金/知乎
推荐资源:
- 官方文档:https://github.com/anthropics/skills
- 官方仓库 README 里的 Examples
- 社区最佳实践:Anthropic 官方博客 https://www.anthropic.com/blog
- 国内社区:CSDN AI 板块、掘金 AI 板块
避免的坑:
- 不要装太多 Skill(超过 10 个会拖慢 Agent)
- 不要把 Skill 装在不兼容的 Agent 上
- 不要直接复制 Skill 默认 prompt——要根据项目调整
- 定期 review Skill 库的实用性,清理不用的
参考链接
- 官方仓库:https://github.com/anthropics/skills
- 该 Skill 目录:https://github.com/anthropics/skills/tree/main/skills/pdf
- pypdf 文档:https://pypdf.readthedocs.io/
- pdfplumber 文档:https://github.com/jsvine/pdfplumber
- reportlab 文档:https://www.reportlab.com/documentation/
- Tesseract OCR:https://github.com/tesseract-ocr/tesseract
- qpdf 工具:https://github.com/qpdf/qpdf
PDF 在企业中的真实位置
很多人低估了 PDF 在企业流程中的地位。合同、发票、报告、证书、说明书、招股书、产品手册——这些都是 PDF。即使进入”无纸化办公”时代,PDF 仍然是”正式文件”的默认载体。
Anthropic 的 pdf Skill 让 AI 真正具备”读 PDF、写 PDF、批量处理 PDF”的能力,价值巨大。对法务部门,可以从 100 份合同里抽取关键字段(甲方、金额、日期)到 Excel;对财务部门,可以从批量发票里识别金额、税号、做对账;对 HR 部门,可以批量生成 offer、证明、协议。
进一步阅读
- pypdf 官方文档(https://pypdf.readthedocs.io/) 是 PDF 操作的核心库。
- pdfplumber(https://github.com/jsvine/pdfplumber) 专注 PDF 表格提取,准确率比 pypdf 高。
- reportlab(https://www.reportlab.com/documentation/) 是生成 PDF 的瑞士军刀。
- Tesseract OCR(https://github.com/tesseract-ocr/tesseract) 是处理扫描件 PDF 的必备工具。
- qpdf(https://github.com/qpdf/qpdf) 提供高级 PDF 操作(解密、修复、合并)。
- PDF 2.0 规范(ISO 32000-2) 是 PDF 标准的最新版,Skill 内部会跟进。
- PDF Association(https://www.pdfa.org/) 提供 PDF/A 长期归档标准。
实战建议
- 合同信息抽取:把几百份 PDF 合同的关键字段(甲方、金额、日期)抽到 Excel。
- PDF 合并/拆分:把多个章节 PDF 合成一本书,或把一个 500 页报告按章节拆。
- 加水印:批量给内部 PDF 加”机密”水印,防止外泄。
- 表单自动填写:Skill 支持读取 PDF AcroForm 字段,批量把 JSON 数据填进表单。
- PDF/A 合规归档:用 PDF/A 模式生成长期可读的归档格式。
- OCR + 翻译流水线:扫描件 OCR → 翻译 → 重新排版 → 输出双语 PDF。
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
PDF Skill 多维度简评
来源:anthropics/skills(官方) 类别:文档处理 / 必装
说明:本文基于官方文档和公开资料整理,未经 MagicNetWorld 实测。
一、核心定位与价值
4 个 Office 文档 Skill(PDF/DOCX/XLSX/PPTX)中,PDF 使用频率最高——合同、发票、报告、论文等几乎所有重要文档都以 PDF 形式流转。
该 Skill 覆盖了读取、提取、合并、拆分、表单填写、OCR、加密、解密、加水印的全套操作。
二、核心能力清单
| 操作 | 实现库 | 说明 |
|---|---|---|
| 文本提取 | pdfplumber | 精确提取,保留布局信息 |
| 表格提取 | pdfplumber | 核心能力,结构保留好 |
| 表单填写 | pypdf | 需先提取字段名 |
| OCR 识别 | pytesseract | 中文需装中文语言包 |
| 合并/拆分 | pypdf | 支持大文件拆分 |
| 加密/解密 | pypdf | AES-256 支持 |
| 加水印 | reportlab | 中文字体需手动配置 |
| 创建 PDF | reportlab | 编程式生成 |
三、Python PDF 库选型
| 库 | 主要用途 | 文本提取 | 表格提取 | 生成 PDF | 性能 |
|---|---|---|---|---|---|
| pdfplumber | 精确提取 | 高级(保留布局) | 内置 | 不支持 | 中 |
| pypdf | 合并/拆分/加密 | 基础 | 不支持 | 不支持 | 较慢 |
| PyMuPDF | 全能 | 快(12x pypdf) | 弱 | 支持 | 极快 |
| reportlab | 生成 PDF | N/A | N/A | 支持 | 快 |
Anthropic 官方 Skill 选 pdfplumber + pypdf 组合,避免 PyMuPDF 的 AGPL 协议风险。
四、8 大实战场景
场景 1:合同关键信息提取
从合同 PDF 中提取甲方、乙方、合同金额、付款条件、违约责任,整理为表格。
场景 2:50 张发票批量提取
批量处理发票 PDF,提取发票号、日期、金额、抬头,汇总到 Excel。
场景 3:PDF → Excel(核心能力)
提取 PDF 财报中的所有表格,存到 Excel,每个表格一个 Sheet。
场景 4:合并/拆分
合并多个 PDF 为单一文件;或将大 PDF 拆分为每页独立文件。
场景 5:表单填写
提取 PDF 表单字段 → 填入数据 → 生成填充完毕的 PDF。
场景 6:扫描件 OCR
对扫描件 PDF 做 OCR 识别,提取全部文字。
场景 7:Markdown → PDF
将 Markdown 转成排版精美的 A4 PDF。
场景 8:加水印 + 加密
批量给 PDF 加”机密”水印,然后加密码保护。
五、链式工作流
PDF 财报 → xlsx 财务模型 → pptx 董事会汇报 → 加密 PDF 下发
PDF 合同 → docx 编辑修订 → 双方签字 → 重新转 PDF 归档
六、性能参考
| 任务 | 规模 | 参考耗时 |
|---|---|---|
| 提取文本 | 100 页 PDF | 5-10s |
| 合并 | 50 个 200 页 PDF | 30-60s |
| OCR | 100 页扫描件 | 5-10 分钟 |
| 加密 | 1GB 大文件 | 1-2 分钟 |
| 加水印 | 200 个不同水印 | 10-20s |
七、安装
# Claude Code
/plugin install document-skills@anthropic-agent-skills
# 通用
npx skills add anthropics/skills --skill pdf
中文 OCR 支持
# 安装 Tesseract 中文语言包
sudo apt install tesseract-ocr-chi-sim # Linux
# 或下载 https://github.com/tesseract-ocr/tessdata
八、总结
核心价值:使用频率最高、覆盖面最广的文档处理 Skill;链式调用效果倍增。
适用人群:所有人。
投入产出比:⭐⭐⭐⭐⭐——必装。
参考资料
- Anthropic Skills 官方 PDF Skill — GitHub
- pdfplumber 文档 — GitHub
- pypdf 官方文档 — 官方文档
- ReportLab User Guide — 官方文档
- ocrmypdf 文档 — PDF/A 输出工具
- Agent Skills 开放规范 — 官方网站
快速安装
pip install pypdf pdfplumber reportlab
brew install tesseract # macOS
apt-get install tesseract-ocr # Ubuntu
```
克隆 Skill:
```bash
git clone https://github.com/anthropics/skills.git
cp -r skills/pdf ~/.claude/skills/