插件与Skills

agent-browser

agent-browser是什么 agent-b...

标签:

agent-browser是什么

agent-browser 是 Vercel Labs 推出的面向 AI Agent 的浏览器自动化 CLI 工具,采用原生 Rust 编写,基于 Chrome DevTools Protocol (CDP) 直接操控真实 Chrome 浏览器。工具通过紧凑的无障碍树 Snapshot 与 Ref 引用机制,为 LLM 提供上下文高效的网页交互能力,支持 50+ 条浏览器操作命令、多会话隔离、云浏览器接入及实时可观测性 Dashboard。

agent-browser的主要功能

  • Snapshot 无障碍树抓取:输出紧凑的网页无障碍树结构,附带 @e1@e2 等确定性 Ref 引用,供 AI 精准定位元素。
  • Ref 驱动交互:基于 Snapshot 返回的 Ref 引用执行点击、填写、滚动、截图等操作,无需重复查询 DOM。
  • 50+ 浏览器操作命令:涵盖导航、表单、鼠标、键盘、剪贴板、网络拦截、标签页管理、PDF 导出等完整浏览器控制能力。
  • 语义化元素定位:支持通过 ARIA 角色、文本内容、标签、占位符、alt 文本等语义方式查找并操作元素。
  • 多会话隔离:支持多实例浏览器会话并行运行,各自拥有独立的 Cookie、存储、认证与导航历史。
  • 网络监控与拦截:可拦截、阻断、Mock 网络请求,支持 HAR 录制及按资源类型、状态码、方法过滤请求。
  • 截图与视觉 Diff:支持全页/视口截图、带编号标注的截图、像素级视觉对比及 Snapshot 文本 Diff。
  • React / Web Vitals 内省:内置 React DevTools 钩子,可输出组件树、Fiber 渲染记录、Suspense 边界及 LCP/CLS/TTFB 等性能指标。
  • 实时流媒体与 Dashboard:通过 WebSocket 实时推送浏览器视口画面,本地 Dashboard 提供活动流、控制台输出与 AI Chat 面板。
  • AI 自然语言控制:集成 Vercel AI Gateway,支持 agent-browser chat 以自然语言指令驱动浏览器完成复杂任务。

如何使用agent-browser

  • 安装 CLI:执行 npm install -g agent-browser全局安装原生 Rust 二进制。
  • 初始化浏览器:运行 agent-browser install 自动下载 Chrome for Testing,或复用现有 Chrome/Brave 安装。
  • 打开目标页面:执行 agent-browser open example.com 启动浏览器并导航至目标网址。
  • 获取页面 Snapshot:运行 agent-browser snapshot -i 输出交互元素无障碍树及 Ref 引用。
  • 执行交互操作:使用 Ref 引用执行 agent-browser click @e2agent-browser fill @e3 "[email protected]" 等操作。
  • 截图或导出:执行 agent-browser screenshot page.pngagent-browser pdf report.pdf 保存结果。
  • 关闭会话:运行 agent-browser close 结束当前浏览器会话。

agent-browser的核心优势

  • AI 上下文效率优先:紧凑文本输出相比 JSON 或完整 DOM 大幅减少 LLM 上下文占用,专为 Agent 工作流设计。
  • 真实浏览器反检测:基于 CDP 操控真实 Chrome 而非无头浏览器,天然携带用户画像,降低被风控拦截概率。
  • 零 Node.js 依赖:纯 Rust 原生二进制,无需 Playwright 或 Node 运行时,安装包轻量、启动极快。
  • 跨平台原生支持:提供 macOS (ARM64/x64)、Linux (ARM64/x64)、Windows (x64) 全平台原生编译版本。
  • 企业级安全机制:提供加密认证保险库、内容边界标记、域名白名单、动作策略文件、敏感操作确认及输出长度限制等可选安全层。
  • 无缝云浏览器集成:支持一键接入 Browserless、Browserbase、Browser Use、Kernel、AWS AgentCore 等云浏览器基础设施,支持 Serverless 部署。

agent-browser的项目地址

  • 项目官网:https://agent-browser.dev/
  • GitHub仓库:https://github.com/vercel-labs/agent-browser

agent-browser的同类竞品对比

维度 Agent-Browser Browserbase Skills (browser)
开发方 Vercel Labs Browserbase
生态归属 Vercel Skills (skills.sh) skills.sh / Claude Code Plugins / OpenClaw
安装命令 npx skills add vercel-labs/agent-browser npx skills add browserbase/skills --skill browser
项目 Stars 32.7K 1,557(整个 skills 套件)
底层运行时 Rust 原生二进制,零 Node.js Node.js + browse CLI / stagehand CLI
Agent 调用方式 生成 Shell 命令 (agent-browser open) 生成 Shell 命令 (browse open / stagehand open)
Token 开销 极低 (~300–500 tokens,按需加载) 低 (~1K–3K tokens,紧凑 snapshot)
上下文模式 On-demand (需要时展开 Skill 指令) On-demand
元素定位 Ref 引用 (@e1@e2) + 语义定位 Ref 引用 (@0-5) + 语义定位
状态管理 Rust Daemon 多 Session 隔离 Daemon 持久连接,支持本地/远程切换
浏览器连接 本地 Chrome/CDP 直连 本地 + 云端双模式browse env remote 一键切换)
云浏览器集成 需手动配置 Provider(Browserbase/Kernel 等) 原生深度集成,stealth/proxy/captcha 开箱即用
核心特色 5 个内置 Skill(core/electron/slack/sandbox/agentcore),支持 Electron 桌面应用控制 13 个 Skill 套件(browser/fetch/search/functions/site-debugger 等),含 AutoBrowse 自改进循环
反检测能力 强(直连真实 Chrome CDP,多会话隔离) 极强(云端 stealth 模式、住宅代理、自动 CAPTCHA 解决、指纹随机化)
适用场景 自定义 Agent 底座、Electron 自动化、多会话并行、本地隐私优先 高风控网站自动化、电商/预订流程、需要代理和反 bot、云端弹性扩展

agent-browser的应用场景

  • AI Agent 网页自动化:让 LLM 自主完成信息检索、表单填写、数据抓取、竞品监控等端到端网页任务。
  • 端到端测试与回归:用 Snapshot Diff 与截图像素对比进行 UI 回归测试,结合语义定位降低测试脆弱性。
  • 无头数据采集:在 CI/CD 或 Serverless 环境(Vercel、AWS Lambda)中执行结构化数据抓取与报告生成。
  • 移动端 Web 测试:通过 iOS 模拟器或真机控制 Mobile Safari,验证移动端页面兼容性与交互流程。
  • 前端性能监控:自动化采集 Web Vitals 指标与 React 组件渲染数据,集成到监控流水线。

相关导航