$cd ../tutorials/
Advanced35 min read

掌握浏览器自动化

利用 OpenClaw 的原生 Computer Use 功能,像人类一样点击、输入和导航网页。

introduction.md

简介

除了简单的 API 集成,OpenClaw 在与图形用户界面交互时还具有深刻的能力。使用 Computer Use 模型标准(由 Claude 3.5 Sonnet 普及),您的本地代理可以控制 Chromium 实例执行复杂的视觉导航。

本教程涵盖从设置本地 Chrome 测试环境到编写健壮的网络爬取提示流程的所有内容。

⚠️ 安全提示:浏览器自动化让 AI 控制活跃会话。请勿在无人监督的情况下授权代理执行金融交易或访问高度敏感的账户。
prerequisites.md

1. 前置条件

  • OpenClaw v1.3.0 或更新版本。
  • 支持 Vision + Computer Use 工具的 LLM(如 Anthropic 模型或专业本地模型如 Qwen2-VL)。
  • 主机上已安装 Google Chrome 或 Chromium。
enable_browser.json

2. 启用浏览器工具

在 OpenClaw 配置文件(~/.openclaw/config.json)中,确保浏览器能力已启用。

{
"capabilities": {
"computer_use": true,
"browser_path": "/usr/bin/google-chrome"
}
}
coordinate_click.md

3. "坐标与点击"工作流

与传统的基于 DOM 的爬虫(如 Puppeteer 或 Playwright)不同,OpenClaw "看"屏幕。它获取截图,计算您想要的按钮的 X/Y 坐标,并移动虚拟鼠标点击它。

示例:表单填写

您可以自然地提示代理:

Please open https://example-crm.com/login. Type "admin@company.com" into the email field. Type my password from the secure vault into the password field. Click the blue "Sign In" button.
captcha.md

4. 处理验证码

因为 OpenClaw 通过真实的浏览器配置文件操作,它自然避免了许多基本的机器人检测脚本。但对于可见的验证码,您有两个选项:

  1. 1.人机协作:添加提示指令:"如果遇到验证码,暂停执行并请求我来解决。":
  2. 2.API 解决方案:将第三方解码器技能与浏览器技能集成。:
visual_scraping.md

5. 提取数据(视觉爬取)

无需解析复杂的 HTML 嵌套表格,您可以要求 OpenClaw 以可视化方式构建数据。

Go to Yahoo Finance for AAPL. Look at the summary table on the left. Extract the "Previous Close", "Open", and "Market Cap" into a JSON object.
troubleshoot.md

故障排除

  • 点击未命中目标:确保显示缩放设置为 100%。分数缩放(150%)可能会混淆坐标映射。:
  • "找不到可执行文件":验证配置中的 browser_path 与系统 Chrome 安装路径完全匹配。:
$ cd ../tutorials/* END_OF_TUTORIAL */