新研究推动了多模式学习的最新发展

电子说

1.2w人已加入

描述

  与大多数AI系统不同,人类在上下文中一起理解文本,视频,音频和图像的含义。例如,给定文本和图像,当它们分开看时似乎是无害的(例如,“看有多少人爱你”和一张荒芜的沙漠图片),人们就会认识到,这些元素在配对或配对时具有潜在的有害含义。并列。

  尽管能够进行这些多模式推断的系统仍然遥不可及,但是已经取得了进步。过去一年中的新研究推动了多模式学习的最新发展,特别是在视觉问题解答(VQA)子领域,这是一种计算机视觉任务,其中向系统提供有关图像和图像的基于文本的问题。必须推断答案。事实证明,多模式学习可以承载互补的信息或趋势,只有当它们全部包含在学习过程中时,这些信息或趋势才会变得明显。这为从字幕到将漫画书翻译成不同语言的应用程序带来了希望。

  在多模式系统中,计算机视觉和自然语言处理模型在数据集上一起训练,以学习组合的嵌入空间,或由代表图像,文本和其他媒体的特定特征的变量占据的空间。如果将不同的单词与相似的图像配对,则这些单词很可能用来描述相同的事物或对象,而如果某些单词出现在不同的图像旁边,则表示这些图像表示相同的对象。那么,多模式系统应该有可能从文本描述中预测诸如图像对象之类的东西,并且大量的学术文献已经证明是这种情况。

  仅存在一个问题:众所周知,多峰系统会吸收数据集中的偏差。VQA等任务中涉及的问题和概念的多样性,以及缺乏高质量的数据,通常会使模型无法学习到“推理”,从而导致他们依靠数据集统计信息做出有根据的猜测。

  关键见解可能在于Orange实验室和里昂国家应用科学研究院的科学家开发的基准测试。他们声称测量VQA模型准确性的标准度量标准具有误导性,因此提供了替代方法GQA-OOD,它可以评估无法推理得出的问题的表现。在一项涉及7个VQA模型和3种减少偏见的技术的研究中,研究人员发现这些模型未能解决涉及频率不高的概念的问题,这表明该领域需要开展工作。

  该解决方案可能涉及更大,更全面的培训数据集。巴黎ÉcoleNormaleSupérieure的工程师,巴黎Inria巴黎以及捷克的信息学,机器人技术和控制论研究所的工程师发表的一篇论文提出了一个VQA数据集,该数据集是由数百万个旁白的视频创建的。研究人员称,该数据集由转录视频中自动生成的问题和答案对组成,消除了手动注释的需要,同时可以在流行的基准上实现出色的性能。(大多数机器学习模型学会根据自动或手工标记的数据做出预测。)

  责任编辑:lq

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分