Apple 的 MM1 语言模型可以让 Siri 变得更有用

调皮哥 • 2025年2月11日 16:50 • 3C数码

Apple 已经悄悄在生成式 AI 努力很长一段时间了，公司首席执行长 Tim Cook 在最近的财报电话会议上宣布了这一消息。目前还没有人真正知道这意味着什么，但该公司工程师最近发表的一篇研究论文虽然没有大张旗鼓地发表，却也可以从中看到一些蛛丝马迹。

Apple 的 MM1 语言模型可以让 Siri 变得更有用

Apple的MM1语言模型是一个具有多达300亿个参数的多模态模型，可以打包为多达640亿个参数的MoE。特别有趣的是，研究人员还测试了一个30亿参数的模型，该模型能够在具有适度RAM的设备上本机运行，这将非常适合为LLM提供动力，该LLM可以增强Siri甚至完全取代Siri。

在研究论文中，研究人员示范了 MM1 如何使用图像进行推理并遵循。在一个例子中，将 MM1 与 Emu-Chat-37B 和 LLaVA-NeXT-34B 进行比较，以分析桌子上的啤酒并计算价格，MM1 是唯一一个得到正确答案的选项，并且可以用简单的方式解释其原因。

Apple 还使用 Mixture of Experts 构建了一个 3B 参数模型，进一步增强性能。首先看到 Mixture of Experts 通过 Mixtral 8x7B 成为主流，在只需要 47B 模型硬件的模型中提供相当于 GPT 3.5 的性能，此外，MoE 的推理速度通常更快，从而具备更多优势。

总的来说，与 LLaVA、Gemini Nano 和 Emu2 等产品相比，MM1 似乎更占优势，尤其是在视觉问答或 VQA 方面;对于较小的模型，尤其是设计用于移动设备上的模型，更是一个巨大的优势，这部份是指模型回答视觉输入的能力，包括识别图像内容和基于这些内容的原因。出于多种原因，MM1似乎表现亮眼，目前尚不清楚苹果最终是否会将其推广到自己的设备上。报道中提到，该公司目前正在与谷歌进行谈判以使用Gemini技术，这代表MM1现阶段可能只是内部测试。例如，未来的 MM2 或 MM3 就可能用于未来的设备，但事实是，我们永远摸不清苹果。

特别有趣的是，Mac 和 iPhone 都有能够在设备上运行 LLM 的 NPU，而 Mac 是少数几个真正可以运行的电脑。 Intel 和 AMD 才刚刚开始将开发重点放在 NPU 上，将它纳为芯片组的一部分，但苹果自其首款 M1 芯片推出以来就已经拥有，整体上处于领先地位，这可能有助于苹果未来采取的任何行动。

Siri 迫切需要升级

Siri 刚开始时的确占了领先地位，但随着百度等竞争对手的快速成长，它已经显得落后。随着三星、谷歌在设备上增加 AI 服务，生成式 AI 俨然是设备端助理的下一个方向。 Apple 可能不想落后而且该公司一直按照自己的节奏前竟，但应该已经很明显地感受到来自竞品的压力。很难说 MM1 或后续型号何时会在设备上现身，该公司目前只是将开发与测试结果以研究论文形式发表，依照苹果的模式来说也可能永远不会问世，但可以肯定的是，Apple 希望能够在这不断发展的领域中成为关键的一员。