苹果发布研究论文：揭示Ferret-UI AI系统，破解MLLMs移动应用理解难题

微云疏影 2024-04-10 441

　　据悉，Apple近期发表了有关于Ferret-UI AI系统的研究论文，这款新型AI系统可理解应用程序屏幕上的内容。

　　目前围绕人工智能（AI）技术，出现了如ChatGPT这样的大语言模型（LLMs），这些模型擅长处理文本资料。然而，对于像图片、视频和声音等多媒体类型的非文本n内容，就需要扩大AI模型的适用范围，相应地，多模态大语言模型（MLLMs）也就应运而生。

　　尽管MLLMs已表现出对移动应用程序的理解不足，具体表现在以下几点：

　　首先，智能手机屏幕的宽高比和大多数训练视觉模型所使用的比例不同；其次，MLLMs需要识别出较小的图标和按钮。

　　针对以上问题，Apple提出了名为“Ferret-UI”的MLLM系统，以应对这些挑战。系统通过引入WMDR（任意分辨率），提升模型在处理用户界面任务时的辨识度，使其能更好地识别和理解小图标、文字等元素。

　　此外，我们专门采集了大量与初级用户界面任务相关的样本，包括图标识别、文本查找和小部件列表等。所有样本均按照区域注释指令进行设计，以便于精确解释和实用化。

　　为了提高模型的认知水平，我们进一步定制了高级任务数据集，含括详细描写、感官/互交互对话及功能推理等方面。

　　该项研究表明，与现行的GPT-4V以及其他MLLMs模型相比，Ferret-UI AI模型具有显著优势。

审核编辑黄宇

打开APP阅读更多精彩内容