agent-browser

agent-browser是什么

agent-browser 是 Vercel Labs 推出的面向 AI Agent 的浏览器自动化 CLI 工具，采用原生 Rust 编写，基于 Chrome DevTools Protocol (CDP) 直接操控真实 Chrome 浏览器。工具通过紧凑的无障碍树 Snapshot 与 Ref 引用机制，为 LLM 提供上下文高效的网页交互能力，支持 50+ 条浏览器操作命令、多会话隔离、云浏览器接入及实时可观测性 Dashboard。

agent-browser的主要功能

Snapshot 无障碍树抓取：输出紧凑的网页无障碍树结构，附带 @e1、@e2 等确定性 Ref 引用，供 AI 精准定位元素。
Ref 驱动交互：基于 Snapshot 返回的 Ref 引用执行点击、填写、滚动、截图等操作，无需重复查询 DOM。
50+ 浏览器操作命令：涵盖导航、表单、鼠标、键盘、剪贴板、网络拦截、标签页管理、PDF 导出等完整浏览器控制能力。
语义化元素定位：支持通过 ARIA 角色、文本内容、标签、占位符、alt 文本等语义方式查找并操作元素。
多会话隔离：支持多实例浏览器会话并行运行，各自拥有独立的 Cookie、存储、认证与导航历史。
网络监控与拦截：可拦截、阻断、Mock 网络请求，支持 HAR 录制及按资源类型、状态码、方法过滤请求。
截图与视觉 Diff：支持全页/视口截图、带编号标注的截图、像素级视觉对比及 Snapshot 文本 Diff。
React / Web Vitals 内省：内置 React DevTools 钩子，可输出组件树、Fiber 渲染记录、Suspense 边界及 LCP/CLS/TTFB 等性能指标。
实时流媒体与 Dashboard：通过 WebSocket 实时推送浏览器视口画面，本地 Dashboard 提供活动流、控制台输出与 AI Chat 面板。
AI 自然语言控制：集成 Vercel AI Gateway，支持 agent-browser chat 以自然语言指令驱动浏览器完成复杂任务。

如何使用agent-browser

安装 CLI：执行 npm install -g agent-browser全局安装原生 Rust 二进制。
初始化浏览器：运行 agent-browser install 自动下载 Chrome for Testing，或复用现有 Chrome/Brave 安装。
打开目标页面：执行 agent-browser open example.com 启动浏览器并导航至目标网址。
获取页面 Snapshot：运行 agent-browser snapshot -i 输出交互元素无障碍树及 Ref 引用。
执行交互操作：使用 Ref 引用执行 agent-browser click @e2、agent-browser fill @e3 "[email protected]" 等操作。
截图或导出：执行 agent-browser screenshot page.png 或 agent-browser pdf report.pdf 保存结果。
关闭会话：运行 agent-browser close 结束当前浏览器会话。

agent-browser的核心优势

AI 上下文效率优先：紧凑文本输出相比 JSON 或完整 DOM 大幅减少 LLM 上下文占用，专为 Agent 工作流设计。
真实浏览器反检测：基于 CDP 操控真实 Chrome 而非无头浏览器，天然携带用户画像，降低被风控拦截概率。
零 Node.js 依赖：纯 Rust 原生二进制，无需 Playwright 或 Node 运行时，安装包轻量、启动极快。
跨平台原生支持：提供 macOS (ARM64/x64)、Linux (ARM64/x64)、Windows (x64) 全平台原生编译版本。
企业级安全机制：提供加密认证保险库、内容边界标记、域名白名单、动作策略文件、敏感操作确认及输出长度限制等可选安全层。
无缝云浏览器集成：支持一键接入 Browserless、Browserbase、Browser Use、Kernel、AWS AgentCore 等云浏览器基础设施，支持 Serverless 部署。

agent-browser的项目地址

项目官网：https://agent-browser.dev/
GitHub仓库：https://github.com/vercel-labs/agent-browser

agent-browser的同类竞品对比

维度	Agent-Browser	Browserbase Skills (browser)
开发方	Vercel Labs	Browserbase
生态归属	Vercel Skills (skills.sh)	skills.sh / Claude Code Plugins / OpenClaw
安装命令	`npx skills add vercel-labs/agent-browser`	`npx skills add browserbase/skills --skill browser`
项目 Stars	32.7K	1,557（整个 skills 套件）
底层运行时	Rust 原生二进制，零 Node.js	Node.js + `browse` CLI / `stagehand` CLI
Agent 调用方式	生成 Shell 命令 (`agent-browser open`)	生成 Shell 命令 (`browse open` / `stagehand open`)
Token 开销	极低 (~300–500 tokens，按需加载)	低 (~1K–3K tokens，紧凑 snapshot)
上下文模式	On-demand (需要时展开 Skill 指令)	On-demand
元素定位	Ref 引用 (`@e1`, `@e2`) + 语义定位	Ref 引用 (`@0-5`) + 语义定位
状态管理	Rust Daemon 多 Session 隔离	Daemon 持久连接，支持本地/远程切换
浏览器连接	本地 Chrome/CDP 直连	本地 + 云端双模式（`browse env remote` 一键切换）
云浏览器集成	需手动配置 Provider（Browserbase/Kernel 等）	原生深度集成，stealth/proxy/captcha 开箱即用
核心特色	5 个内置 Skill（core/electron/slack/sandbox/agentcore），支持 Electron 桌面应用控制	13 个 Skill 套件（browser/fetch/search/functions/site-debugger 等），含 AutoBrowse 自改进循环
反检测能力	强（直连真实 Chrome CDP，多会话隔离）	极强（云端 stealth 模式、住宅代理、自动 CAPTCHA 解决、指纹随机化）
适用场景	自定义 Agent 底座、Electron 自动化、多会话并行、本地隐私优先	高风控网站自动化、电商/预订流程、需要代理和反 bot、云端弹性扩展

agent-browser的应用场景

AI Agent 网页自动化：让 LLM 自主完成信息检索、表单填写、数据抓取、竞品监控等端到端网页任务。
端到端测试与回归：用 Snapshot Diff 与截图像素对比进行 UI 回归测试，结合语义定位降低测试脆弱性。
无头数据采集：在 CI/CD 或 Serverless 环境（Vercel、AWS Lambda）中执行结构化数据抓取与报告生成。
移动端 Web 测试：通过 iOS 模拟器或真机控制 Mobile Safari，验证移动端页面兼容性与交互流程。
前端性能监控：自动化采集 Web Vitals 指标与 React 组件渲染数据，集成到监控流水线。