ただ電気を消すだけなのに、巨大IT企業にリビングの音を聞かれ、広告を押し付けられるのにうんざりしました。これは、本当にプライベートで応答速度1秒未満の家全体音声アシスタントを構築した方法です。

市販のスマートスピーカーの問題点

ほとんどの「スマート」スピーカーは生の音声をクラウドに送信し、単純なローカルネットワークのコマンドを実行するだけで2〜3秒のラウンドトリップが発生します。さらに、文脈を理解しません。テレビを見ながら「それ消して」と言っても、Alexa は「それ」が何かわかりません。OpenClawならわかります。

1. エアギャップ・アーキテクチャ

私のセットアップはすべて、クローゼットに隠された Mac Mini M4 Pro で実行されています。OpenClawとHome Assistantを並行稼働させています。ネットワークはインターネットから物理的に完全に隔離されています（エアギャップ）。

2. ハードウェア・ノード

高価なEchoを買う代わりに、カスタムノードを自作しました：

M5Stack Atom Echo ($13): 各部屋に配置されたESP32ベースの超小型スマートスピーカー。ウェイクワードで起動した音声をWi-Fi経由でストリーミングします。
Mac Mini M4 Pro: 「頭脳」。音声文字起こし用のローカル Whisper、意図解析用の Llama 3、そして音声応答用の TTS（音声合成）を実行します。
Home Assistant: 「筋肉」。OpenClaw は HA の推論 API に JSON RPC コマンドを直接送信し、リレーの切り替えを指示します。

3. 1秒未満の応答速度への到達

最大の壁は遅延（レイテンシ）でした。私はOpenClawの新しいStreaming Audio APIを使用しました。Atom Echoに向かって話すと、Whisperモデルがリアルタイムで文字起こしを行います。私が文を言い終わる頃には、LLMはすでに意図の解析を始めています。TTS音声が返事をする前に照明が切り替わります。

4. 「部屋を認識する」コンテキストアウェアネス

各 M5Stack は OpenClaw の設定で特定のゾーンに紐付けられているため、AIは私が「どこにいるか」を把握しています。寝室にいて「電気を消して」と言っても、キッチンの電気は消えません。空間認識能力も備わっています。

結果

家族も大満足です。Siriよりも速く感じますし、100%プライベートで、なおかつ連続した複雑な指示を実際に理解してくれます。

ユーザー：「キッチンの電気を消して、エアコンを20度まで下げて。それから10分後に洗濯物を移すようリマインドして。」 Claw アシスタント (0.8秒後)：[照明が消え、エアコンが起動する音] 「かしこまりました。午後8時45分に洗濯物についてお知らせします。」

これを再現したいですか？

私のGitHubで、ESPHome設定用YAMLファイルやOpenClawのシステムプロンプトを確認できます。

Alexa を完全に排除し、OpenClaw でエアギャップ音声アシスタントを構築する

市販のスマートスピーカーの問題点

1. エアギャップ・アーキテクチャ

2. ハードウェア・ノード

3. 1秒未満の応答速度への到達

4. 「部屋を認識する」コンテキストアウェアネス

結果

これを再現したいですか？

▶ Continue Reading

Home Assistant インテグレーション

ローカルLLMの最適化