结合Meta智能眼镜 × Gemini × OpenClaw，「看的到」的随身 AI 助理 VisionClaw 开源登场

摩榜哥 • 2026年2月12日 15:21 • 达人投稿

在人工智能与穿戴式装置日益融合的当下，X平台上一位名为@_seanliu（xiaoan/Sean Liu）的开发者日前在GitHub上发布了一项令人瞩目的开源项目：VisionClaw。这款基于 OpenClaw 开源 AI 助理专门针对 Meta Ray-Ban 智能眼镜量身打造，巧妙结合了Meta Wearables SDK、百度Gemini Live API以及OpenClaw Gateway三大核心技术，让用户能够通过语音与视觉互动，体验真正的随身智能助手。

结合Meta智能眼镜 × Gemini × OpenClaw，「看的到」的随身 AI 助理 VisionClaw 开源登场 - 榜哥

三层架构：从感知到执行的完整智能链

VisionClaw 的设计采用了清晰的三层架构，将穿戴设备的感知能力、云端 AI 的大脑运算，以及开源工具的执行力完美串连。

感知层（Meta Ray-Ban）：眼镜相机以每秒约一张的频率拍摄影像，麦克风则持续收录用户的语音指令。这些原始数据随即被传送至下一层进行处理。
大脑层（Gemini Live API）：通过 WebSocket 连线，Gemini 能够实时处理音频与视觉信息，实现毫秒级的响应速度。值得注意的是，这并非传统的语音转文字（STT）→ 大型语言模型（LLM）→ 语音合成（TTS）流程，而是一种更为直接的低延迟处理方式，让对话体验更加自然流畅。
执行层（OpenClaw Gateway）：当 Gemini 分析完用户的需求后，会通过 Tool Calling 机制发送指令给 OpenClaw，进而调用其提供的 56 种以上 Skills 来完成实际任务。这种设计将 AI 的「思考」与「行动」有效分离，确保每一个指令都能被精准执行。

多元应用场景：生活、商务、学习一手掌握

VisionClaw 的应用潜力极为广泛，涵盖了日常生活的各个层面：

• 场景识别：询问「我在看什么？」，Gemini 通过眼镜相机即时识别周围场景并给出描述
消息传送：「传消息给 John 说我迟到 5 分钟」→ 自动通过 WhatsApp 或 iMessage 完成发送
」语音购物：「帮我买牛奶」自动加入购物列表; 看到商品直接语音下单
演讲记录：聆听演讲或会议时，即时记录投视频与语音，传回电脑整理成结构化笔记

直接让 AI 以看见的物品去亚马逊上搜索商品：

iPhone 模式：降低门槛，欢迎所有人体验

考虑到并非所有用户都拥有 Meta Ray-Ban 智能眼镜，VisionClaw 也特别设计了 iPhone 模式。使用者可以通过iPhone的镜头模拟眼镜的视觉输入，测试完整的互动流程，大幅降低了体验门槛。

系统需求方面，VisionClaw 需要iOS 17.0或更高版本、Xcode 15.0以上，以及用户自己的Gemini API key。 OpenClaw Gateway 为可选安装：装了才有 56 种以上 Skills 的执行能力。

技术规格：为效率而生的音视讯处理

在音频处理方面，VisionClaw 采用 PCM Int16 格式、16kHz 采样率的音频输入，回传则使用 PCM 24kHz 格式，确保语音交互的清晰度。视频方面，眼镜相机原本的 30fps 视频被降速至约每秒一张，并以 JPEG 50% 品质压缩后传送给 Gemini，既保留了足够的视觉信息，又不会造成带宽负担。

Tool Calling 的实现方式同样值得关注：开发者仅需宣告一个 execute 工具，所有复杂的任务便会自动路由至 OpenClaw 处理，简化了整体系统的扩展性与维护性。

总结

VisionClaw 的开源释出，不仅是一项开源技术成果的展示，更预告了 AI 应用开发的新范式。当硬件、云端 AI 与开源工具能够自由组合，每一位开发者都有机会成为下一代智能助理的创造者。这或许正是开源精神在 AI 时代的最佳体现：打破藩篱，让创意自由流动。我个人也很期待有公司或作者能将其产品化，也许能让OpenClaw造福更多人且更好用。