cd ../
🏠 家庭服务器精选
Requires OpenClaw v1.4+|Needs Audio API

用 OpenClaw 打造全物理隔离的私人语音中枢,彻底断舍离 Alexa

作者: u/SmartHomeDIYFebruary 15, 2026 405 comments

我受够了只为了关个灯,科技巨头就能监听我的客厅并给我推销广告。以下是我如何构建一个真正保护隐私、响应时间低于一秒的全屋语音助手的故事。

商业智能音箱的痛点

大多数“智能”音箱都会将你的原始音频发送到云端,为了执行一个本地局域网指令就要耗费 2-3 秒的往返延迟。而且它们缺乏语境:如果我看着电视说“把它关掉”,Alexa 根本不知道“它”是指什么。但 OpenClaw 知道。

1. 物理隔离架构

我所有的设备都运行在藏在壁橱里的 Mac Mini M4 Pro 上。它同时运行着 OpenClaw 和 Home Assistant。该网络与国际互联网做到了完全的物理隔离(Air-Gapped)。

Home Assistant Dashboard

2. 硬件节点分布

我没有花高价购买 Echo,而是自制了节点设备:

  • M5Stack Atom Echo ($13): 放在每个房间的基于 ESP32 的微型智能音箱。它们通过 Wi-Fi 流式传输被唤醒词激活的音频流。
  • Mac Mini M4 Pro: “大脑”。运行本地的 Whisper 模型进行语音转文字,Llama 3 进行意图解析,并运行 TTS 生成语音响应。
  • Home Assistant: “肌肉”。OpenClaw 直接向 HA 推理 API 发送 JSON RPC 命令以控制继电器。

3. 突破亚秒级响应时间

最大的阻碍是延迟。我利用了 OpenClaw 最新的流式音频 API(Streaming Audio API)。当我对准 Atom Echo 讲话时,Whisper 模型已经在进行实时转录。几乎在我话音刚落的那一刻,LLM 就已开始解析意图。家里的灯甚至在 TTS 语音开口回答之前就已经亮起了。

4. “房间级”的场景感知

因为每一个 M5Stack 音箱在 OpenClaw 的配置中都绑定到了一个特定的子区域,AI 知道我*在哪个房间*。如果我在卧室说“关灯”,它绝对不会去关厨房的灯。它具备空间感知能力。

最终成果

我的家人对它爱不释手。它感觉比 Siri 还要快,100% 捍卫我们的隐私,并且它真的能听懂复杂的连续指令。

用户:“关掉厨房灯,把恒温器调到 20 度,然后 10 分钟后提醒我去收衣服。” Claw 助手 (0.8秒后):[灯光熄灭,空调启动声] “已完成。我会在晚上 8:45 提醒您去收洗好的衣服。”

想亲手复制这份作业?

你可以在我的 GitHub 上找到 ESPHome 刷机配置 YAML 文件和 OpenClaw 的系统提示词模板。