苹果研究人员开发出可「看」到并理解屏幕内容的AI

根据周五发表的一篇论文，苹果研究人员已开发出一种新的人工智能系统，可以理解对屏幕上实体的模糊参考，以及对话和背景上下文，进而实现与语音助手更自然的互动。

该系统名为ReALM（Reference Resolution As Language Modeling，基于语言模式的屏幕参考解析），利用大型语言模型参考解析的复杂任务（包括理解对屏幕上视觉元素的参考）转换为纯语言建模问题。这使得ReALM在参考解析任务上比现有方法取得了显著的性能提升。

「能够理解上下文，包括参考，对于对话助手来说是必不可少的，」苹果研究团队写道。「让用户能够发出关于他们在屏幕上所看到内容的查询，是确保语音助手真正无需手动操作体验的关键一步。」

增强对话助理

为了处理基于屏幕的参考，ReALM的一项关键创新是通过解析屏幕上的实体及其位置，重建屏幕并生成捕捉视觉布局的文字表示。研究人员证明，结合特别为参考解析微调语言模型，可以在这项任务上超越GPT-4。

研究人员写道：「我们展示了在不同类型的参考上，与具有类似功能的现有系统相比，可以获得大幅改进，我们最小的模型在屏幕参考上获得了超过5%的绝对增益。我们较大的模型显著优于GPT-4。」

▲ Apple 的 AI 系统 ReALM 可以参考屏幕上的数据并理解，例如在这个示例中显示的「260 个样品销售」列表，进而实现与语音助理的更自然的互动。（图片来源：arxiv.org）

这项研究凸显了专门的语言模型在生产系统中处理参考解析等任务的潜力，因为由于延迟或运算限制，无法使用大型端到端模型。通过发表这项研究，苹果暗示了其将继续投资这项研究，使Siri和其他产品更加善于对话和理解上下文。

不过，研究人员警告，仅依赖于自动解析屏幕存在局限性。处理更复杂的视觉参考，如区分多个图像，可能需要结合计算机视觉和多模态技术。

尽管苹果在快速发展的 AI 领域落后于竞争对手，但它正悄悄地在人工智能研究方面取得重大进展。

从融合视觉和语言的多模态模型，到人工智能动画工具，再到使用低成本构建高性能专用 AI 的技术，苹果研究实验室的稳步突破表明，其 AI 雄心正在迅速扩大。

但这个以保密著称的科技巨头正面临着来自Google、微软、亚马逊和OpenAI等公司的激烈竞争，这些公司已经在搜索、办公软件、云服务等领域积极将生成式人工智能产品化。

苹果长期以来一直是快速跟随者而非先行者，现在它正面临着一个由人工智能以前所未有的速度改变的市场。该公司备受关注的全球开发者大会将在 6 月举行，预计届时将推出新的大型语言模型框架、「Apple GPT」聊天机器人以及其生态系统中其他的人工智能功能。

「我们很高兴能在今年晚些时候分享我们在人工智能方面正在进行的工作细节，」首席执行长蒂姆·库克最近在一次财务电话会议上暗示。尽管苹果很少正面回答任何问题，但很明显，其在人工智能的努力范围很广。

然而，随着人工智能主导权争夺战的升温，这家 iPhone 制造商的姗姗来迟使其处于一种非同寻常的弱势地位。雄厚的资金、品牌忠诚度、顶尖的工程技术和紧密整合的产品组合使其有机会获胜，但是在这场高风险的竞争中，没有什么东西是可以确定的。

一个普遍存在、真正智能计算的新时代即将到来。到了6月，我们将看到苹果是否已做好足够准备，确保能在塑造这个新时代中扮演一个角色。