一个基于任务的深度循环网络，加入循环单元可以解决更困难的视觉问题

zhKF_jqr_AI 2018-07-08 3160

电子说

1.2w人已加入

描述

编者按：深度卷积神经网络对视觉系统来说是个不错的模型，但这些静态系统不能解释现实视觉反应中的短暂动态行为。于是神经科学家们建造了一个基于任务的深度循环网络，加入循环单元可以解决更困难的视觉问题。以下是论智的编译。

视觉系统

摘要

前馈卷积神经网络（CNN）是目前最先进的目标分类任务工具，例如ImageNet。另外，他们是灵长类动物大脑中视觉系统中精准定量平均响应时间的模型。然而，生物视觉系统的两种普遍存在的结构特征是典型CNN不具备的，即皮质区域内的局部循环，以及下游区域到上游区域的远距离反馈。在这篇文章中，我们研究了循环结构在提高分类性能时的作用，我们发现，在ImageNet任务中，标准的循环形式（vanilla RNN和LSTM）无法在深度CNN中达到良好表现。相反，能将两种结构特征——bypassing和gating——结合起来的结构能将任务精确度极大地提升。

我们将这些设计原则应用在数千个模型中的自动搜索上，它们确定了局部循环单元和远距离反馈连接对目标辨认很有用。另外，这些经过任务优化的卷积RNN能比反馈网络更好地解释灵长类动物神经系统中神经元的活动，说明大脑的循环连接在执行不同的视觉动作时非常重要。

背景介绍

大脑的传感器系统必须在含有噪音的复杂感知数据中检测出有意义的模式。视觉环境可以揭示物体正面或负面的价值，例如食物种类、危险的信号或难忘的人。然而这些信号在不同场景中的位置、姿势、背景和前景都相差很大，所以从低属性图像中很难辨别出目标物体。

最近的研究表明，针对任务优化的深度卷积神经网络（CNN）是灵长类动物大脑的视觉编码精确的量化模型。CNN经过训练，可以识别ImageNet中的物体，并且能比其他模型更好地解释视觉系统中的神经元反馈。模型的各个卷积层分辨提供不同视觉区域的线性预测。

但是，灵长动物的视觉系统有些结构并没有被前馈CNN完全模仿，即皮质区域的局部循环连接和不同区域的远距离连接。目前还不清楚循环的作用，有科学家猜想循环是用来填补缺失的数据，或进行从上到下基于注意力的特征调整。

虽然经过增强的有循环结构的CNN可以用来解决相对简单的遮挡或预测任务，但这些模型既不能适应复杂的任务（前馈CNN可以解决），也不能解释神经反馈。事实上，由于目标识别的复杂性和多样性，ImageNet中的很多图片质量都参差不齐，所以有可能要用到上述的循环处理机制。而且最近很多对ImageNet高效的解决方法都提出在多个图层之中用同样的结构基序。于是我们选择研究循环结构究竟能否提高模型在ImageNet数据集上的分类表现。虽然其他工作用CNN的输出最为RNN的输入解决视觉任务，在这里我们将循环结构和CNN本身结合，因为这类结构在神经科学中是非常常见的。

模型结构

为了研究卷积RNN的空间结构，我们用TensorFlow库增强标准的、有局部和远距离循环结构的CNN，如图所示：

卷积循环网络中含有局部循环和远程前馈连接的结合

在卷积RNN的每个图层中，来自较高层的前馈输入被重新修改尺寸，以匹配前馈输入的空间维度。两种类型的输入都由标准的2D卷积处理。如果该层有任何局部循环，则输出会输入到下一个循环单元。

在这项工作中，所有形式的循环都向前馈基础模型中添加了参数。由于这样可以提升模型的性能，我们训练了两种与卷积RNN相对照的模型：

有更多卷积过滤层的前馈模型（更宽）或者更多层的模型（更深），以匹配循环模型中参数的数量；

将卷积模型展开后进行复制，其中的参数数量和原始的卷积RNN一样。

实验结果

新型RNN结构提高了任务处理性能

我们首先测试了有着标准RNN单位的增强CNN（例如vanilla RNN和LSTM）能够提高在ImageNet目标物体辨认上的表现。二者对比如图所示：

视觉系统

结果发现在类似AlexNet这样的六层前馈上，精确度稍有提升。

但这里的循环结构存在两个问题，首先，由于单一参数数量的增多，这些卷积RNN并没有检测性能提升了多少。其次，将前馈模型做得更宽或更深，比单纯地增加标准RNN单元性能提升得更多，参数却更少。这说明标准RNN结构虽然适用于很多种任务，但是不适合深度CNN中的任务。

我们研究后发现这是因为标准RNN中缺少两种关键属性：

Gating，即隐藏状态的值决定下一步的输入有多少能通过、保留或丢弃；

Bypassing，即一个零初始化的隐藏状态允许前馈输入通过下一层。

重要的是，这两种特征都是为了解决梯度消失的问题。于是我们将两种特征部署到循环结构中。具体结果如图：

视觉系统

之后经过对更深的循环结构进行超参数优化后，我们用卷积RNN模拟了灵长类动物腹流（参与物体识别）神经。

视觉系统

结语

实际上，这篇论文详细介绍了CNN中的循环单元能在目标识别中有效提高性能，我们的发现能提高不同的局部循环结构对应大脑中不同的行为的概率。我们相信通过将该方法应用到CNN上，我们能提高现有的很多方法的性能。未来的实验将探寻不同的任务是否能在卷积RNN对神经的反馈上取代监督目标辨别。另外还将测试模型能否低于其他形式的噪声。

打开APP阅读更多精彩内容