苹果发布研究论文:揭示Ferret-UI AI系统,破解MLLMs移动应用理解难题

描述

  据悉,Apple近期发表了有关于Ferret-UI AI系统的研究论文,这款新型AI系统可理解应用程序屏幕上的内容。

  目前围绕人工智能(AI)技术,出现了如ChatGPT这样的大语言模型(LLMs),这些模型擅长处理文本资料。然而,对于像图片、视频和声音等多媒体类型的非文本n内容,就需要扩大AI模型的适用范围,相应地,多模态大语言模型(MLLMs)也就应运而生。

  尽管MLLMs已表现出对移动应用程序的理解不足,具体表现在以下几点:

  首先,智能手机屏幕的宽高比和大多数训练视觉模型所使用的比例不同;其次,MLLMs需要识别出较小的图标和按钮。

  针对以上问题,Apple提出了名为“Ferret-UI”的MLLM系统,以应对这些挑战。系统通过引入WMDR(任意分辨率),提升模型在处理用户界面任务时的辨识度,使其能更好地识别和理解小图标、文字等元素。

  此外,我们专门采集了大量与初级用户界面任务相关的样本,包括图标识别、文本查找和小部件列表等。所有样本均按照区域注释指令进行设计,以便于精确解释和实用化。

  为了提高模型的认知水平,我们进一步定制了高级任务数据集,含括详细描写、感官/互交互对话及功能推理等方面。

  该项研究表明,与现行的GPT-4V以及其他MLLMs模型相比,Ferret-UI AI模型具有显著优势。

审核编辑 黄宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分