$cd ../tutorials/
Advanced35 min read
ブラウザ自動化をマスター
OpenClawのネイティブ「Computer Use」を活用し、人間のようにクリック、入力、Webナビゲーションを行います。
introduction.md
はじめに
単純なAPI統合を超えて、OpenClawはグラフィカルユーザーインターフェースとのインタラクションにおいて深い能力を持っています。Computer Useモデル標準(Claude 3.5 Sonnetで普及)を使用して、ローカルエージェントがChromiumインスタンスを制御して複雑な視覚的ナビゲーションを実行できます。
このチュートリアルは、ローカルChromiumテスト環境のセットアップからWebスcraping用の堅牢なプロンプトフローの作成まで、すべてをカバーしています。
⚠️ セキュリティ注意:ブラウザ自動化はAIにアクティブセッションの制御を与えます。無人での金融取引や高度に機密性の高いアカウントへのアクセスをエージェントに許可しないでください。
prerequisites.md
1. 前提条件
- •OpenClaw v1.3.0以降。
- •Vision + Computer Useツールをサポートするモデル(例:Anthropicモデルまたは特化型ローカルモデルQwen2-VL)。
- •ホストマシンにGoogle ChromeまたはChromiumがインストール済み。
enable_browser.json
2. ブラウザツールの有効化
OpenClaw設定ファイル(~/.openclaw/config.json)で、ブラウザ機能が有効になっていることを確認します。
{
"capabilities": {
"computer_use": true,
"browser_path": "/usr/bin/google-chrome"
}
}
coordinate_click.md
3. 「座標とクリック」ワークフロー
PuppeteerやPlaywrightのような従来のDOMベースのスクレイパーとは異なり、OpenClawは画面を「見ます」。スクリーンショットを取得し、目的のボタンのX/Y座標を計算し、仮想マウスを移動してクリックします。
例:フォーム入力
エージェントに自然にプロンプトできます:
Please open https://example-crm.com/login.
Type "admin@company.com" into the email field.
Type my password from the secure vault into the password field.
Click the blue "Sign In" button.
captcha.md
4. CAPTCHAへの対処
OpenClawは実際のブラウザプロファイルを通じて動作するため、多くの基本的なボット検出スクリプトを自然に回避します。ただし、可視のCAPTCHAには2つのオプションがあります:
- 1.ヒューマン・イン・ザ・ループ:プロンプト指示を追加:「CAPTCHAに遭遇した場合、実行を一時停止して解決を求めてください。」:
- 2.APIソルバー:ブラウザスキルと並行してサードパーティソルバースキルを統合。:
visual_scraping.md
5. データ抽出(視覚スクレイピング)
複雑なHTMLネストテーブルを解析する代わりに、OpenClawに視覚的にデータを構築するよう依頼できます。
Go to Yahoo Finance for AAPL.
Look at the summary table on the left.
Extract the "Previous Close", "Open", and "Market Cap" into a JSON object.
troubleshoot.md
トラブルシューティング
- •クリックがターゲットを外れる:表示スケーリングが100%に設定されていることを確認してください。分数スケーリング(150%)は座標マッピングを混乱させる可能性があります。:
- •「実行可能ファイルが見つかりません」:設定のbrowser_pathがシステムのChromeインストールと完全に一致していることを確認してください。: