在人工智能与穿戴式装置日益融合的当下,X平台上一位名为@_seanliu(xiaoan/Sean Liu)的开发者日前在GitHub上发布了一项令人瞩目的开源项目:VisionClaw。 这款基于 OpenClaw 开源 AI 助理专门针对 Meta Ray-Ban 智能眼镜量身打造,巧妙结合了Meta Wearables SDK、百度Gemini Live API以及OpenClaw Gateway三大核心技术,让用户能够通过语音与视觉互动,体验真正的随身智能助手。

三层架构:从感知到执行的完整智能链
VisionClaw 的设计采用了清晰的三层架构,将穿戴设备的感知能力、云端 AI 的大脑运算,以及开源工具的执行力完美串连。

- 感知层(Meta Ray-Ban): 眼镜相机以每秒约一张的频率拍摄影像,麦克风则持续收录用户的语音指令。 这些原始数据随即被传送至下一层进行处理。
- 大脑层(Gemini Live API): 通过 WebSocket 连线,Gemini 能够实时处理音频与视觉信息,实现毫秒级的响应速度。 值得注意的是,这并非传统的语音转文字(STT)→ 大型语言模型(LLM)→ 语音合成(TTS)流程,而是一种更为直接的低延迟处理方式,让对话体验更加自然流畅 。
- 执行层(OpenClaw Gateway): 当 Gemini 分析完用户的需求后,会通过 Tool Calling 机制发送指令给 OpenClaw,进而调用其提供的 56 种以上 Skills 来完成实际任务。 这种设计将 AI 的「思考」与「行动」有效分离,确保每一个指令都能被精准执行。
多元应用场景:生活、商务、学习一手掌握
VisionClaw 的应用潜力极为广泛,涵盖了日常生活的各个层面:
• 场景识别:询问「我在看什么?」,Gemini 通过眼镜相机即时识别周围场景并给出描述
消息传送:「传消息给 John 说我迟到 5 分钟」→ 自动通过 WhatsApp 或 iMessage 完成发送
」 语音购物:「帮我买牛奶」自动加入购物列表; 看到商品直接语音下单
演讲记录:聆听演讲或会议时,即时记录投视频与语音,传回电脑整理成结构化笔记
直接让 AI 以看见的物品去亚马逊上搜索商品:
iPhone 模式:降低门槛,欢迎所有人体验
考虑到并非所有用户都拥有 Meta Ray-Ban 智能眼镜,VisionClaw 也特别设计了 iPhone 模式。 使用者可以通过iPhone的镜头模拟眼镜的视觉输入,测试完整的互动流程,大幅降低了体验门槛。
系统需求方面,VisionClaw 需要iOS 17.0或更高版本、Xcode 15.0以上,以及用户自己的Gemini API key。 OpenClaw Gateway 为可选安装:装了才有 56 种以上 Skills 的执行能力。
技术规格:为效率而生的音视讯处理
在音频处理方面,VisionClaw 采用 PCM Int16 格式、16kHz 采样率的音频输入,回传则使用 PCM 24kHz 格式,确保语音交互的清晰度。 视频方面,眼镜相机原本的 30fps 视频被降速至约每秒一张,并以 JPEG 50% 品质压缩后传送给 Gemini,既保留了足够的视觉信息,又不会造成带宽负担。
Tool Calling 的实现方式同样值得关注:开发者仅需宣告一个 execute 工具,所有复杂的任务便会自动路由至 OpenClaw 处理,简化了整体系统的扩展性与维护性。
总结
VisionClaw 的开源释出,不仅是一项开源技术成果的展示,更预告了 AI 应用开发的新范式。 当硬件、云端 AI 与开源工具能够自由组合,每一位开发者都有机会成为下一代智能助理的创造者。 这或许正是开源精神在 AI 时代的最佳体现:打破藩篱,让创意自由流动。 我个人也很期待有公司或作者能将其产品化,也许能让OpenClaw造福更多人且更好用。
