agent-browser是什么
agent-browser 是 Vercel Labs 推出的面向 AI Agent 的浏览器自动化 CLI 工具,采用原生 Rust 编写,基于 Chrome DevTools Protocol (CDP) 直接操控真实 Chrome 浏览器。工具通过紧凑的无障碍树 Snapshot 与 Ref 引用机制,为 LLM 提供上下文高效的网页交互能力,支持 50+ 条浏览器操作命令、多会话隔离、云浏览器接入及实时可观测性 Dashboard。
agent-browser的主要功能
-
Snapshot 无障碍树抓取:输出紧凑的网页无障碍树结构,附带
@e1、@e2等确定性 Ref 引用,供 AI 精准定位元素。 -
Ref 驱动交互:基于 Snapshot 返回的 Ref 引用执行点击、填写、滚动、截图等操作,无需重复查询 DOM。
-
50+ 浏览器操作命令:涵盖导航、表单、鼠标、键盘、剪贴板、网络拦截、标签页管理、PDF 导出等完整浏览器控制能力。
-
语义化元素定位:支持通过 ARIA 角色、文本内容、标签、占位符、alt 文本等语义方式查找并操作元素。
-
多会话隔离:支持多实例浏览器会话并行运行,各自拥有独立的 Cookie、存储、认证与导航历史。
-
网络监控与拦截:可拦截、阻断、Mock 网络请求,支持 HAR 录制及按资源类型、状态码、方法过滤请求。
-
截图与视觉 Diff:支持全页/视口截图、带编号标注的截图、像素级视觉对比及 Snapshot 文本 Diff。
-
React / Web Vitals 内省:内置 React DevTools 钩子,可输出组件树、Fiber 渲染记录、Suspense 边界及 LCP/CLS/TTFB 等性能指标。
-
实时流媒体与 Dashboard:通过 WebSocket 实时推送浏览器视口画面,本地 Dashboard 提供活动流、控制台输出与 AI Chat 面板。
-
AI 自然语言控制:集成 Vercel AI Gateway,支持
agent-browser chat以自然语言指令驱动浏览器完成复杂任务。
如何使用agent-browser
-
安装 CLI:执行
npm install -g agent-browser全局安装原生 Rust 二进制。 -
初始化浏览器:运行
agent-browser install自动下载 Chrome for Testing,或复用现有 Chrome/Brave 安装。 -
打开目标页面:执行
agent-browser open example.com启动浏览器并导航至目标网址。 -
获取页面 Snapshot:运行
agent-browser snapshot -i输出交互元素无障碍树及 Ref 引用。 -
执行交互操作:使用 Ref 引用执行
agent-browser click @e2、agent-browser fill @e3 "[email protected]"等操作。 -
截图或导出:执行
agent-browser screenshot page.png或agent-browser pdf report.pdf保存结果。 -
关闭会话:运行
agent-browser close结束当前浏览器会话。
agent-browser的核心优势
-
AI 上下文效率优先:紧凑文本输出相比 JSON 或完整 DOM 大幅减少 LLM 上下文占用,专为 Agent 工作流设计。
-
真实浏览器反检测:基于 CDP 操控真实 Chrome 而非无头浏览器,天然携带用户画像,降低被风控拦截概率。
-
零 Node.js 依赖:纯 Rust 原生二进制,无需 Playwright 或 Node 运行时,安装包轻量、启动极快。
-
跨平台原生支持:提供 macOS (ARM64/x64)、Linux (ARM64/x64)、Windows (x64) 全平台原生编译版本。
-
企业级安全机制:提供加密认证保险库、内容边界标记、域名白名单、动作策略文件、敏感操作确认及输出长度限制等可选安全层。
-
无缝云浏览器集成:支持一键接入 Browserless、Browserbase、Browser Use、Kernel、AWS AgentCore 等云浏览器基础设施,支持 Serverless 部署。
agent-browser的项目地址
- 项目官网:https://agent-browser.dev/
- GitHub仓库:https://github.com/vercel-labs/agent-browser
agent-browser的同类竞品对比
| 维度 | Agent-Browser | Browserbase Skills (browser) |
|---|---|---|
| 开发方 | Vercel Labs | Browserbase |
| 生态归属 | Vercel Skills (skills.sh) | skills.sh / Claude Code Plugins / OpenClaw |
| 安装命令 | npx skills add vercel-labs/agent-browser |
npx skills add browserbase/skills --skill browser |
| 项目 Stars | 32.7K | 1,557(整个 skills 套件) |
| 底层运行时 | Rust 原生二进制,零 Node.js | Node.js + browse CLI / stagehand CLI |
| Agent 调用方式 | 生成 Shell 命令 (agent-browser open) |
生成 Shell 命令 (browse open / stagehand open) |
| Token 开销 | 极低 (~300–500 tokens,按需加载) | 低 (~1K–3K tokens,紧凑 snapshot) |
| 上下文模式 | On-demand (需要时展开 Skill 指令) | On-demand |
| 元素定位 | Ref 引用 (@e1, @e2) + 语义定位 |
Ref 引用 (@0-5) + 语义定位 |
| 状态管理 | Rust Daemon 多 Session 隔离 | Daemon 持久连接,支持本地/远程切换 |
| 浏览器连接 | 本地 Chrome/CDP 直连 | 本地 + 云端双模式(browse env remote 一键切换) |
| 云浏览器集成 | 需手动配置 Provider(Browserbase/Kernel 等) | 原生深度集成,stealth/proxy/captcha 开箱即用 |
| 核心特色 | 5 个内置 Skill(core/electron/slack/sandbox/agentcore),支持 Electron 桌面应用控制 | 13 个 Skill 套件(browser/fetch/search/functions/site-debugger 等),含 AutoBrowse 自改进循环 |
| 反检测能力 | 强(直连真实 Chrome CDP,多会话隔离) | 极强(云端 stealth 模式、住宅代理、自动 CAPTCHA 解决、指纹随机化) |
| 适用场景 | 自定义 Agent 底座、Electron 自动化、多会话并行、本地隐私优先 | 高风控网站自动化、电商/预订流程、需要代理和反 bot、云端弹性扩展 |
agent-browser的应用场景
-
AI Agent 网页自动化:让 LLM 自主完成信息检索、表单填写、数据抓取、竞品监控等端到端网页任务。
-
端到端测试与回归:用 Snapshot Diff 与截图像素对比进行 UI 回归测试,结合语义定位降低测试脆弱性。
-
无头数据采集:在 CI/CD 或 Serverless 环境(Vercel、AWS Lambda)中执行结构化数据抓取与报告生成。
-
移动端 Web 测试:通过 iOS 模拟器或真机控制 Mobile Safari,验证移动端页面兼容性与交互流程。
-
前端性能监控:自动化采集 Web Vitals 指标与 React 组件渲染数据,集成到监控流水线。
