我受够了只为了关个灯，科技巨头就能监听我的客厅并给我推销广告。以下是我如何构建一个真正保护隐私、响应时间低于一秒的全屋语音助手的故事。

大多数“智能”音箱都会将你的原始音频发送到云端，为了执行一个本地局域网指令就要耗费 2-3 秒的往返延迟。而且它们缺乏语境：如果我看着电视说“把它关掉”，Alexa 根本不知道“它”是指什么。但 OpenClaw 知道。

1. 物理隔离架构

我所有的设备都运行在藏在壁橱里的 Mac Mini M4 Pro 上。它同时运行着 OpenClaw 和 Home Assistant。该网络与国际互联网做到了完全的物理隔离（Air-Gapped）。

2. 硬件节点分布

我没有花高价购买 Echo，而是自制了节点设备：

M5Stack Atom Echo ($13): 放在每个房间的基于 ESP32 的微型智能音箱。它们通过 Wi-Fi 流式传输被唤醒词激活的音频流。
Mac Mini M4 Pro: “大脑”。运行本地的 Whisper 模型进行语音转文字，Llama 3 进行意图解析，并运行 TTS 生成语音响应。
Home Assistant: “肌肉”。OpenClaw 直接向 HA 推理 API 发送 JSON RPC 命令以控制继电器。

最大的阻碍是延迟。我利用了 OpenClaw 最新的流式音频 API（Streaming Audio API）。当我对准 Atom Echo 讲话时，Whisper 模型已经在进行实时转录。几乎在我话音刚落的那一刻，LLM 就已开始解析意图。家里的灯甚至在 TTS 语音开口回答之前就已经亮起了。

因为每一个 M5Stack 音箱在 OpenClaw 的配置中都绑定到了一个特定的子区域，AI 知道我*在哪个房间*。如果我在卧室说“关灯”，它绝对不会去关厨房的灯。它具备空间感知能力。

我的家人对它爱不释手。它感觉比 Siri 还要快，100% 捍卫我们的隐私，并且它真的能听懂复杂的连续指令。

用户：“关掉厨房灯，把恒温器调到 20 度，然后 10 分钟后提醒我去收衣服。” Claw 助手 (0.8秒后)：[灯光熄灭，空调启动声] “已完成。我会在晚上 8:45 提醒您去收洗好的衣服。”

你可以在我的 GitHub 上找到 ESPHome 刷机配置 YAML 文件和 OpenClaw 的系统提示词模板。