OpenAI Operator
OpenAI推出的自主浏览器Agent,可像人类一样操作网页完成预订、购物、填表等在线任务
OpenAI Operator 快速入门
浏览器里开一个「看得见」的 AI,你说一句,它替你点、替你填、替你下单。
这是什么?适合谁?
OpenAI Operator 是 OpenAI 在 2025 年初推出的浏览器内置 Agent,运行在 https://operator.chatgpt.com 上。它的最大特点是自带一个「可视化浏览器」——你打开 Operator 页面,会看到一个真实的 Chrome 窗口在网页里,鼠标、键盘、表单、滚动条全都是真的。Operator 后面的模型(Cactus,基于 GPT 系列)能看到这张浏览器截图,可以自己移动鼠标、点击、输入、提交,完成你交代的网页任务。
跟 Claude Computer Use 相比,Operator 是产品化做得更彻底的版本:你不需要自己写 Python 循环,不需要装 Docker,登录 ChatGPT 账号就能用;你不需要提供截图,它直接给你一个能看得到的浏览器;任务完成后它会截图存证,你看一眼就能验证它到底做了什么。
典型场景包括:订机票(「帮我订下周三北京到上海最便宜的一班,起飞时间在下午 3 点后」)、网购(「在淘宝搜『人体工学椅』,按销量排序,把前 5 个商品名和价格列出来」)、填表(「去 XX 官网注册一个新账号,用户名是 test123」)、跨网站数据搬运(「把 LinkedIn 上某人的工作经历复制到 Notion 模板里」)。
适合谁?如果你是产品经理或运营,需要经常在多个网站之间搬运数据、做调研,Operator 能直接替你点;如果你是不会写代码的普通用户,想把「每周手动下单」这种重复劳动交给 AI,Operator 是不需要学编程的方案;如果你是企业采购/HR,需要批量处理一些网页任务,Operator 可以大幅节省时间。
不适合需要精确控制的开发者——Operator 是个产品而非 API,你想把它嵌进自己的系统,需要等待 OpenAI 后续开放更底层的接口(或者考虑用 ChatGPT 的 CUA 模型自己实现);也不适合实时性要求高的任务——每次「看+点」循环大约 5~10 秒,一次复杂任务几分钟很正常。
准备工作
开始之前,请准备以下几样:
- 一个 ChatGPT 账号:Operator 是 ChatGPT 旗下的产品,登录 https://operator.chatgpt.com 用 ChatGPT 账号直接登入即可。
- Pro 及以上订阅:Operator 在 2025 年初发布时仅向 ChatGPT Pro(每月 200 美元)用户开放,后续可能向 Plus 用户开放部分功能。订阅可在 https://chatgpt.com/#pricing 了解。
- 一个能访问海外服务的网络环境:Operator 的浏览器跑在 OpenAI 的云端,但你输入指令时还是走 OpenAI 的接口。
- 一个你愿意让 AI 操作的测试账号:千万不要拿你的主账号(银行、邮箱)去试水,先用一个低风险账号熟悉行为。
3 步快速上手
第 1 步:登录 Operator
打开浏览器,访问 https://operator.chatgpt.com。用 ChatGPT 账号登录。第一次登录会要求你确认服务条款,勾选「I understand Operator will browse the web and may take actions on my behalf」。
第 2 步:开启一次会话
登录后,主界面是一个聊天框 + 内嵌浏览器的布局。聊天框在顶部,浏览器在下方。点「新会话」按钮开一个干净的 session,然后在聊天框里用自然语言描述任务,比如:
帮我去 https://www.bing.com 搜索「2026 年 AI Agent 趋势报告」,把搜索结果前 5 个标题和链接整理成列表。
回车之后,Operator 会:
- 自动打开 bing.com;
- 在搜索框里输入「2026 年 AI Agent 趋势报告」;
- 回车,等待结果;
- 逐一点开前 5 个链接(可选);
- 把整理好的结果在聊天框里输出。
整个过程你都能在下方浏览器里实时看到——鼠标在动、页面在翻、截图在存档。
第 3 步:接管与确认
任务跑完后,Operator 会在聊天框里给你一个总结,并提供「Take over」按钮——点击后你能接管浏览器控制权,自己接着操作(比如它把购物车填好了,你接手去付款)。这对涉及支付、密码等敏感操作的场景非常关键——Operator 设计上不会自己输入信用卡号或密码,它会停下来让你做。
任务完成后,你可以点「Done」结束会话,或点「Save」把它存到历史记录里方便以后复用。
第一次用建议跑一个完全无风险的任务(比如在 Wikipedia 查资料),熟悉它的行为再上正式场景。
常见踩坑
- 「订阅了 Pro 还是用不了」:Operator 早期分批开放,需要等 OpenAI 给你的账号开通权限;登录后顶部如果有「Join waitlist」,按提示加入排队。
- 「它卡在某个弹窗上」:有些网站会弹「接受 Cookie」「订阅通知」之类的弹窗,Operator 不一定每次都能正确关闭;这时候点「Take over」手动点掉,然后让它继续。
- 「结果不对」:Operator 毕竟是「看着网页做判断」,遇到复杂表单、多步骤登录、验证码(CAPTCHA)时容易出错;关键任务自己核对一遍结果再采用。
- 「账号被网站风控」:某些网站会检测到「非人类速度」,把你的 IP 或账号临时封了;不要在短时间内让 Operator 跑大量类似任务。
- 「中文网页效果差」:Operator 的训练数据中英文占多数,中文网站(尤其是带复杂验证码的)成功率低于英文站;复杂中文任务建议拆成更小的子任务。
- 「它不会付款」:设计上 Operator 不会帮你输入信用卡号——这是 OpenAI 的安全策略,不是 bug;遇到付款环节必须人工接管。
初级用法
- 跨站价格对比:同时打开几个电商网站,搜同一个商品,把价格和促销信息整理成表。
- 自动填表:在政府或学校网站上批量提交材料(比如多份奖学金申请),Operator 能逐个填写。
- 预订餐厅 / 机票:告诉它日期、城市、人数、预算范围,让它在 OpenTable、Booking 等平台找合适的选项。
高级玩法
- 多 session 串行:把一个大任务(比如「调研 A 公司、B 公司、C 公司的财报数据」)拆成 3 个 session,每个 session 查一家,最后由你汇总。
- 搭配 ChatGPT 做后期处理:Operator 输出的原始数据粘到 ChatGPT 主对话里,让它做汇总、出表格、画图,效果比 Operator 自己整理更稳。
- 企业内部系统自动化:很多公司内部的 OA、BPM 没有 API,Operator 可以「曲线」自动化(注意遵守公司合规要求)。
小技巧
- 任务写得具体:「去京东搜『无线键盘』,按销量排序,把前 10 个商品名、价格、店铺名整理成表」比「帮我找款键盘」效果好 10 倍。
- 善用「Take over」:遇到需要输入密码、付款、确认隐私的环节,直接接管,不要硬让 AI 走完。
- 看截图复盘:Operator 会把关键步骤的截图存进历史,出错时回看截图能很快定位是哪一步走偏了。
- 每次只跑一件事:一个 session 里塞多个任务,Operator 容易在中间切换上下文时丢失焦点;分开跑更稳。
- 先在 Wikipedia 试水:第一次用 Operator 时,先让它在 Wikipedia 上做几个查询,熟悉它「点-看-想」的节奏再上正式任务。
参考链接
- Operator 官方页面
- OpenAI 介绍 Operator 的博客
- OpenAI Operator / CUA 模型研究
- ChatGPT 订阅与定价
- OpenAI 帮助中心:Operator FAQ
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
同分类推荐
商业平台 分类下的其他 Agent