Apple 已经悄悄在生成式 AI 努力很长一段时间了,公司首席执行长 Tim Cook 在最近的财报电话会议上宣布了这一消息。 目前还没有人真正知道这意味着什么,但该公司工程师最近发表的一篇研究论文虽然没有大张旗鼓地发表,却也可以从中看到一些蛛丝马迹。
Apple 的 MM1 语言模型可以让 Siri 变得更有用
Apple的MM1语言模型是一个具有多达300亿个参数的多模态模型,可以打包为多达640亿个参数的MoE。 特别有趣的是,研究人员还测试了一个30亿参数的模型,该模型能够在具有适度RAM的设备上本机运行,这将非常适合为LLM提供动力,该LLM可以增强Siri甚至完全取代Siri。

在研究论文中,研究人员示范了 MM1 如何使用图像进行推理并遵循。 在一个例子中,将 MM1 与 Emu-Chat-37B 和 LLaVA-NeXT-34B 进行比较,以分析桌子上的啤酒并计算价格,MM1 是唯一一个得到正确答案的选项,并且可以用简单的方式解释其原因。

Apple 还使用 Mixture of Experts 构建了一个 3B 参数模型,进一步增强性能。 首先看到 Mixture of Experts 通过 Mixtral 8x7B 成为主流,在只需要 47B 模型硬件的模型中提供相当于 GPT 3.5 的性能,此外,MoE 的推理速度通常更快,从而具备更多优势。

总的来说,与 LLaVA、Gemini Nano 和 Emu2 等产品相比,MM1 似乎更占优势,尤其是在视觉问答或 VQA 方面;对于较小的模型,尤其是设计用于移动设备上的模型,更是一个巨大的优势,这部份是指模型回答视觉输入的能力,包括识别图像内容和基于这些内容的原因。 出于多种原因,MM1似乎表现亮眼,目前尚不清楚苹果最终是否会将其推广到自己的设备上。 报道中提到,该公司目前正在与谷歌进行谈判以使用Gemini技术,这代表MM1现阶段可能只是内部测试。 例如,未来的 MM2 或 MM3 就可能用于未来的设备,但事实是,我们永远摸不清苹果。
特别有趣的是,Mac 和 iPhone 都有能够在设备上运行 LLM 的 NPU,而 Mac 是少数几个真正可以运行的电脑。 Intel 和 AMD 才刚刚开始将开发重点放在 NPU 上,将它纳为芯片组的一部分,但苹果自其首款 M1 芯片推出以来就已经拥有,整体上处于领先地位,这可能有助于苹果未来采取的任何行动。
Siri 迫切需要升级
Siri 刚开始时的确占了领先地位,但随着百度等竞争对手的快速成长,它已经显得落后。 随着三星、谷歌在设备上增加 AI 服务,生成式 AI 俨然是设备端助理的下一个方向。 Apple 可能不想落后而且该公司一直按照自己的节奏前竟,但应该已经很明显地感受到来自竞品的压力。 很难说 MM1 或后续型号何时会在设备上现身,该公司目前只是将开发与测试结果以研究论文形式发表,依照苹果 的模式来说也可能永远不会问世,但可以肯定的是,Apple 希望能够在这不断发展的领域中成为关键的一员。