注意力可以为视觉应用程序带来所需的上下文

醉清歌 2022-07-15 1140

电子说

1.4w人已加入

描述

　　嵌入式视觉技术赋予机器视觉的力量，但今天的系统仍然无法理解图像的所有细微差别。一种用于自然语言处理的方法可以解决这个问题。

　　基于注意力的神经网络，尤其是变换器网络，彻底改变了自然语言处理（NLP），让机器比以往任何时候都更好地理解语言。这种技术旨在通过为人工神经网络提供历史或背景的概念来模拟认知过程，与使用记忆的旧方法（如长短期记忆（LSTM）和循环记忆）相比，它产生了更复杂的人工智能代理。神经网络（RNN）。NLP 现在对输入的问题或提示有了更深层次的理解，并且可以创建很长的文本作为响应，这些文本通常与人类可能写的内容没有区别。

　　注意力当然可以应用于图像处理，尽管到目前为止它在计算机视觉中的使用受到限制。Perceive 首席执行官、人工智能专家 Steve Teig 在接受 EE Times 的独家采访时认为，注意力对于视觉应用程序将变得极为重要。

　　基于注意力的网络

　　注意机制查看输入序列，例如句子，并在序列中的每条数据（音节或单词）之后决定序列的其他部分是相关的。这类似于您阅读本文的方式：您的大脑在记忆中保留了某些单词，即使它专注于您正在阅读的每个新单词，因为您已经阅读的单词与您正在正确阅读的单词结合在一起现在提供有价值的上下文来帮助您理解文本。

　　泰格的例子是：

　　汽车在街上打滑，因为它很滑。

　　当你读完这句话时，你会明白“滑”可能是指街道而不是汽车，因为你已经记住了“街道”和“汽车”这两个词，你的经验告诉你， “slippery”和“street”比“slippery”和“car”之间的关联性强得多。神经网络可以尝试使用注意力机制来模仿这种能力。

　　该机制“获取最近过去的所有单词，并以某种方式将它们进行比较，以了解哪些单词可能与哪些其他单词相关，”Teig 说。“然后网络知道至少要关注这一点，因为“滑”更有可能与街道或汽车［相关］而不是［任何其他词］。

　　因此，注意力是一种专注于将呈现数据的序列减少到可能感兴趣的子集（可能仅是当前和以前的句子），然后分配每个单词可能相关程度的可能性的方法。

　　“［注意力］最终成为了一种利用时间的方式，以一种有点原则的方式，没有查看曾经发生的一切的开销，”泰格说。“这导致人们，直到最近，还认为注意力是一种可以管理时间的技巧。当然，它对语音处理、语言处理和其他时间事物产生了巨大的积极影响。最近，就在最近几个月，人们开始意识到，也许我们可以用注意力来做其他的信息聚焦。”

　　视觉转换器

　　迄今为止，为视觉设计的神经网络对注意力技术的使用非常有限。到目前为止，注意力已与卷积神经网络（CNN）一起应用或用于替换 CNN 的某些组件。但谷歌科学家最近发表的一篇论文（“一幅图像值得 16 × 16 字：大规模图像识别的变形金刚，” 2020 年 10 月）认为注意力的概念更广泛地适用于视觉。作者表明，纯 Transformer 网络是 NLP 中广泛使用的一种依赖于注意力机制的网络，当直接应用于图像块序列时，可以很好地执行图像分类任务。研究人员构建的变压器网络 Vision Transformer （ViT）取得了优于 CNN 的结果，但训练所需的计算资源更少。

　　虽然很容易想象注意力如何应用于文本或口语对话，但将相同的概念应用于静止图像（而不是诸如视频之类的时间序列）就不那么明显了。事实上，注意力可以用在空间上，而不是这里的时间上下文中。音节或单词类似于图像的补丁。

　　Teig 的例子是一张狗的照片。显示狗耳朵的图像补丁可能会将自己识别为耳朵，即使是在毛茸茸的动物或四足动物身上发现的特定类型的耳朵。同样，尾巴补丁知道它也存在于毛茸茸的动物和四足动物身上。图像背景中的树块知道它有树枝和树叶。注意力机制询问耳贴和树贴有什么共同点。答案是，不多。然而，耳贴和尾贴确实有很多共同点。他们可以讨论这些共性，也许神经网络可以找到比“耳朵”或“尾巴”更大的概念。也许网络可以理解图像提供的一些上下文，以计算出耳朵加尾巴可能等于狗。

　　注意力可以通过了解图像块之间的相关性来推断上下文，从而帮助 AI 代理更好地理解图像中发生的事情。

　　“狗的耳朵和尾巴不是独立的这一事实使我们能够更简洁地描述图片中发生的事情：‘图片中有一只狗’，而不是‘旁边有一个棕色像素到一个灰色像素，旁边是……’，这是对图片中正在发生的事情的可怕描述，”Teig 说。“可以这么说，当系统用这些语义术语描述图像的各个部分时，这就是可能的。然后它可以将这些聚合成更有用的概念，用于下游推理。”

　　Teig 说，最终的目标是让神经网络理解图片是一只追逐飞盘的狗。

　　“祝你好运，用 1600 万色像素做到这一点，”他说。“这是一种尝试将其处理为‘有一只狗；有一个飞盘；狗在跑。‘ 现在我有机会理解狗可能在玩飞盘。”

　　更近一步

　　谷歌在视觉系统注意力方面的工作是朝着正确方向迈出的一步，Teig 说，“但我认为无论从理论和软件的角度，还是从硬件的角度来看，这里都有很大的进步空间，当一个不必用巨大的矩阵来打击数据，我非常怀疑你的大脑正在做什么。有很多东西可以在上下文中过滤掉，而无需将其与其他所有内容进行比较。”

　　虽然 Google 研究团队的解决方案比 CNN 更节省地使用计算资源，但 NLP 中通常实现注意力的方式使得像转换器这样的网络非常耗费资源。Transformer 经常构建巨大的 N × N 音节矩阵（用于文本）或像素（用于图像），需要大量的计算能力和内存来处理。

　　“那里的数据中心人员认为，‘太好了——我们有一个数据中心，所以一切对我们来说都像是钉子，’”Teig 说，这就是我们最终得到像 OpenAI 的 GPT-3 这样的 NLP 模型的方式，它的 1750 亿个参数。“当你先验地看到所有东西时，你可以说前面句子中的几乎所有内容都无关紧要，这有点荒谬。你不能提前做任何过滤吗？你真的要因为你有一个巨大的矩阵乘法器就粗暴地做这个吗……？这有任何意义吗？可能不是。”

　　科学界最近尝试减少注意力的计算开销，已将所需的操作数量从 N 2减少到 N√N。但这些尝试延续了“近乎普遍的信念——我不同意——即深度学习完全是关于矩阵和矩阵乘法，”Teig 说，并指出最先进的神经网络研究正在由那些能够获得大规模矩阵乘法加速器。

　　Teig 作为边缘 AI 加速器芯片公司 Perceive 的首席执行官的观点是，有更有效的方法来概念化神经网络计算。Perceive 已经在使用其中一些概念，Teig 认为类似的见解将适用于注意力机制和转换器网络。

　　“我认为关注的精神非常重要，”他说。“我认为机器本身将在未来几年内迅速发展……在软件、理论上和硬件方面来代表它。”

　　今天的大型变压器网络最终会安装到边缘设备的加速器上吗？在 Teig 看来，部分问题在于像 GPT-3 的 1750 亿个参数这样的网络——大约 1 万亿位信息（为了论证而假设 8 位参数）。

　　他说：“这就像我们在玩20个问题的游戏，只是我要问你一万亿个问题，才能理解你刚才说的话。”也许两万或两百万不能完成，但一万亿——滚出去！缺陷不是我们有一个20-MW的小芯片；缺陷在于，拥有1750亿个参数意味着你真的做错了什么。

　　根据泰格的说法，减少基于注意力的网络的参数数量，并有效地表示它们，可以为边缘设备带来基于注意力的嵌入式视觉。而这样的发展“并不遥远”。

　　Percept首席执行官Steve Teig将在嵌入式愿景峰会上发表两次演讲。在“直面偏见”中，他将讨论人工智能系统中歧视的来源，而在“TinyML不够大”中，他将挑战TinyML模型必须在准确性上妥协以及它们应该在CPU或MCU上运行的观念。

　　审核编辑：郭婷

打开APP阅读更多精彩内容