新研究推动了多模式学习的最新发展

PCB88475579 2021-01-25 796

电子说

1.2w人已加入

描述

　　与大多数AI系统不同，人类在上下文中一起理解文本，视频，音频和图像的含义。例如，给定文本和图像，当它们分开看时似乎是无害的（例如，“看有多少人爱你”和一张荒芜的沙漠图片），人们就会认识到，这些元素在配对或配对时具有潜在的有害含义。并列。

　　尽管能够进行这些多模式推断的系统仍然遥不可及，但是已经取得了进步。过去一年中的新研究推动了多模式学习的最新发展，特别是在视觉问题解答（VQA）子领域，这是一种计算机视觉任务，其中向系统提供有关图像和图像的基于文本的问题。必须推断答案。事实证明，多模式学习可以承载互补的信息或趋势，只有当它们全部包含在学习过程中时，这些信息或趋势才会变得明显。这为从字幕到将漫画书翻译成不同语言的应用程序带来了希望。

　　在多模式系统中，计算机视觉和自然语言处理模型在数据集上一起训练，以学习组合的嵌入空间，或由代表图像，文本和其他媒体的特定特征的变量占据的空间。如果将不同的单词与相似的图像配对，则这些单词很可能用来描述相同的事物或对象，而如果某些单词出现在不同的图像旁边，则表示这些图像表示相同的对象。那么，多模式系统应该有可能从文本描述中预测诸如图像对象之类的东西，并且大量的学术文献已经证明是这种情况。

　　仅存在一个问题：众所周知，多峰系统会吸收数据集中的偏差。VQA等任务中涉及的问题和概念的多样性，以及缺乏高质量的数据，通常会使模型无法学习到“推理”，从而导致他们依靠数据集统计信息做出有根据的猜测。

　　关键见解可能在于Orange实验室和里昂国家应用科学研究院的科学家开发的基准测试。他们声称测量VQA模型准确性的标准度量标准具有误导性，因此提供了替代方法GQA-OOD，它可以评估无法推理得出的问题的表现。在一项涉及7个VQA模型和3种减少偏见的技术的研究中，研究人员发现这些模型未能解决涉及频率不高的概念的问题，这表明该领域需要开展工作。

　　该解决方案可能涉及更大，更全面的培训数据集。巴黎ÉcoleNormaleSupérieure的工程师，巴黎Inria巴黎以及捷克的信息学，机器人技术和控制论研究所的工程师发表的一篇论文提出了一个VQA数据集，该数据集是由数百万个旁白的视频创建的。研究人员称，该数据集由转录视频中自动生成的问题和答案对组成，消除了手动注释的需要，同时可以在流行的基准上实现出色的性能。（大多数机器学习模型学会根据自动或手工标记的数据做出预测。）

　　责任编辑：lq

打开APP阅读更多精彩内容