如何建造像动物和人类一样学习的智能机器

lhl545545 2022-07-21 624

人工智能

641人已加入

描述

在寻求人类智能人工智能的过程中，Meta将赌注押在了自监督学习上。

Meta的首席人工智能科学家Yann LeCun并没有忘记他的远大目标，即使在谈到此时此地的具体步骤时也是如此 —— “我们想建造像动物和人类一样学习的智能机器，”LeCun在一次采访中告诉IEEE Spectrum。

近几年，Meta发表了一系列关于AI系统自监督学习（self-supervised learning，SSL）的论文。而SSL与监督学习相反，在监督学习中，人工智能系统从标记的数据集学习（标签充当教师，在人工智能系统检查其工作时提供正确答案）。LeCun经常谈到他坚信SSL是人工智能系统的必要先决条件，人工智能系统可以构建“世界模型”，因此可以开始获得类似人类的能力，例如理性、常识，以及将技能和知识从一个环境转移到另一个环境的能力。目前的新论文展示了一个称为掩码自动编码器（masked auto-encoder，MAE）的自监督系统如何从非常零散和不完整的数据中重建图像、视频甚至音频。虽然MAE并不是一个新概念，但Meta已经将这项工作扩展到了新的领域。

LeCun说，通过找出如何预测静态图像、视频或音频序列中的缺失数据，MAE系统必须构建一个世界模型。他说：“如果它能预测视频中会发生什么，它就必须了解世界是三维的，一些物体是无生命的，不会自己移动，其他物体是有生命的，更难预测，直到能够预测有生命的人的复杂行为。” 一旦人工智能系统有了一个精确的世界模型，它就可以使用该模型来规划行动。

“智力的本质是学会预测，”LeCun说。虽然他并没有声称Meta的MAE系统接近人工通用智能，但他认为这是重要的一步。

并不是每个人都同意Meta研究人员在人类智能水平的正确道路上。，图灵奖得主LeCun，Geoffrey Hinton，和Yoshua Bengio还因为深度神经网络的发展而备受赞誉，Yoshua Bengio有时还与LeCun就人工智能的重大思想进行友好的辩论。在给IEEE Spectrum的一封电子邮件中，Bengio阐述了他们目标中的一些差异和相似之处。

“我真的不认为我们目前的方法（自我监督或不自我监督）足以弥合人类水平的智力差距，”Bengio写道。他补充说，要真正将最先进的技术推向更接近人类规模的人工智能，需要在该领域取得“质的进步”。

虽然他同意LeCun的观点，即对世界进行推理的能力是智力的关键要素，但Bengio的团队并不专注于能够预测的模型，而是那些能够以自然语言形式呈现知识的模型。他指出，这样一个模型“将允许我们结合这些知识来解决新问题、进行反事实模拟或研究可能的未来”。Bengio的团队开发了一种新的神经网络框架，该框架具有比LeCun更为模块化的特性，LeCun的团队正在进行端到端学习（学习初始输入阶段和最终输出结果之间的所有步骤的模型）。

The transformer craze

Meta的MAE工作建立在一种称为transformers的神经网络架构的趋势上。Transformers最初被应用于自然语言处理，在自然语言处理中，它使谷歌的BERT和OpenAI的GPT-3等模型的性能大幅提升。Meta AI研究员Ross Girshick表示，transformers在语言方面的成功使计算机视觉社区的人们在自己的领域“狂热地工作，试图复制这些结果”。

Meta的研究人员并不是第一个成功地将transformers应用于视觉任务的人；Girshick说，谷歌对视觉转换器（Vision Transformer，ViT）的研究启发了Meta团队。他告诉Spectrum：“通过采用ViT架构，它消除了阻碍一些想法实验的障碍。”

Girshick与Meta合著了关于MAE系统的第一篇论文，该论文涉及静态图像。它的训练类似于BERT和其他语言transformers的训练。这样的语言模型显示了巨大的文本数据库，其中有一小部分文字缺失或“被屏蔽”。这些模型试图预测缺失的单词，然后揭开缺失的文本，这样模型就可以检查它们的工作，调整它们的参数，然后用新的文本块重试。Girshick解释说，为了对视觉进行类似的处理，研究小组将图像分割成小块，掩盖一些小块，并要求MAE系统预测图像中缺失的部分。

该团队的突破之一是认识到，掩盖大部分图像可以获得最佳效果，这language transformers的关键区别在于，在language transformers中，可能有15%的文字可能被掩盖。Girshick说：“语言是一个极其密集和高效的交流系统。每个符号都有很多含义。但图像是来自自然界的信号，它们的构造并不是为了消除冗余。这就是为什么我们在创建JPG图像时可以很好地压缩东西。”

Girshick解释说，通过掩盖图像中75%以上的补丁，他们消除了图像中的冗余，否则会使任务变得过于琐碎，无法进行训练。他们的两部分MAE系统首先使用编码器学习训练数据集中像素之间的关系，然后解码器尽最大努力从屏蔽版本重建原始图像。完成此训练方案后，还可以对编码器进行微调，以执行分类和目标检测等视觉任务。

“最终我们感到兴奋的原因是我们在将学习转移到下游任务中看到的结果，”Girshick说。当使用编码器进行物体识别等任务时，他说：“我们看到了非常可观的收益；它们移动了指针。”他指出，扩展模型可以带来更好的性能，这对于未来的模型来说是一个很有希望的迹象，因为SSL“有可能在不需要手动注释的情况下使用大量数据”。

全力以赴学习大量未经处理的数据集可能是Meta改善SSL结果的策略，但这也是一种越来越有争议的方法。人工智能伦理研究人员，如Timnit Gebru，已经提请注意大型语言模型学习的未经处理的数据集中固有的偏见，有时会带来灾难性的后果。

Self-supervised learning in video and audio

在用于视频的MAE系统中，屏蔽遮挡了高达95%的每个视频帧，因为帧之间的相似性意味着视频信号比静态图像具有更多冗余。Meta研究员Christoph Feichtenhofer表示，MAE方法在视频方面的一大优势是，视频通常具有很高的计算要求。但是，通过屏蔽高达95%的每一帧，MAE减少了高达95%的计算成本，他说。

这些实验中使用的剪辑只有几秒钟长，但Feichtenhofer说，在更长的视频上训练人工智能系统是“一个非常活跃的研究课题”。想象一下，他说，一个虚拟助理有你家的视频，可以告诉你一个小时前把钥匙放在哪里了。

更直接地说，人们可以想象，图像和视频系统对于在Facebook和Instagram上进行内容调节所需的分类任务都很有用，Feichtenhofer说，“完整性”是一种可能的应用。“我们肯定是在和产品团队谈判，”他说，“但这是一个非常新的项目，我们还没有任何具体的项目。”

对于音频MAE工作，该团队表示很快将发布在arXiv预印本服务器上，Meta AI团队找到了一种巧妙的方法来应用掩蔽技术。他们将声音文件转换成频谱图，即信号中频率频谱的视觉表示，然后掩盖这些图像的部分内容进行训练。重建的音频令人印象深刻，尽管该模型目前只能处理几秒钟的剪辑。

从事音频系统工作的Bernie Huang说，潜在的应用包括分类任务，通过填充数据包丢失时丢失的音频来帮助IP语音通话，或者找到更有效的压缩音频文件的方法。

Meta一直在进行人工智能攻势、开源研究，例如这些MAE模型，并为人工智能社区提供了一个经过预训练的大型语言模型，用于研究目的。但批评人士指出，尽管在研究方面具有如此开放性，Meta并没有将其核心商业算法用于研究那些控制新闻提要、推荐和广告投放的算法。　　

审核编辑：彭静

打开APP阅读更多精彩内容