
Apple 早前发表了一篇有关开发「Ferret-UI」AI 人工智能的论文,据悉 Ferret-UI 是一个生成式人工智能系统,能够理解智能电话应用程序屏幕显示的内容。

大家耳熟能详的 AI ChatGPT 属于大型语言模型 (Large Language Models,LLMs),主要训练素材取材自文字内容,而更先进的多模态大语言模型(Multimodal Large Language Models,MLLMs)旨在扩展 AI 理解图片、视频、音频等非文字资讯的能力,但是现时大部份 MLLM 还无法有效理解智能电话上面的应用程序,主要因为以下原因:
- 手机屏幕长阔比例与平时训练素材不同;
- 手机应用程式的按钮尺寸较小,对目前的 MLLMs 而言难以识别;
- 目前的 MLLM 暂时未有与应用程序按钮互动的理解能力。
Apple 因此构思开发名为 Ferret-UI 的全新 MLLM,以解决上述问题。 Apple 指,Ferret-UI 加入了「任意解像度」,让这个 MLLM 得以放大画面细节,增强视觉能力。 Apple 又表示从广泛的基本UI任务里收集了不少训练样本,例如图标识别、寻找文字、小清单等,以提高精确度。
