电子说
编者按:今天外网有一篇论文非常火,它提出了一种序列到序列预测的新方法,无需编码器和解码器,只用一个2D卷积神经网络就能超过现有方法的性能。当然,论文内容绝不是点赞的唯一理由……重点是,真的好萌
摘要
当前最先进的机器翻译系统都基于Encoder-Decoder框架:输入序列后,系统先对序列进行编码,然后基于输入序列的编码生成输出序列。为了让系统能基于解码器状态重新组合源语句单词的固定编码,现在编码器和解码器中间往往会有一个注意力模型。
我们提出了一种替代方法,它依赖于跨两个序列的单个2D卷积神经网络。网络的每一层都会根据到目前为止产生的输出序列重新编码源语句单词。因此,其实类似注意力的属性在整个网络中都是普遍存在的。实验证明,我们的模型产生了出色的结果,它优于最先进的Encoder-Decoder框架,同时,它在概念上更简单,参数也更少。
简介
现如今,深层神经网络对自然语言处理技术产生了深远的影响,其中以机器翻译(MT)最为明显。这是一种序列到序列的预测问题,解决它的最先进方法是使用带注意力模块的编码器-解码器模型。注意力模块能在解码过程中重复地重新访问源序列,提高模型的预测效率和精度。
但是,注意力机制存在局限。它的常规做法是在源语句上做简单加权,用到的权重也只是源单词和目标单词之间的浅匹配结果。它只能重新组合相同的源单词编码,在解码时并不能重新编码,也无法重新解释源序列。
为了解决这些局限,我们提出了一种基于深层2D卷积神经网络(CNN)的新方法。它和图像、音频生成模型的自回归模型类似,用源序列和目标序列的输出空间定义网络中的2D网格,同时禁止卷积filter从目标序列的单词中获得未来信息。具体如下图所示:
卷积层的filter大小是3×3,它只能根据先前的输出计算,不能读取目标序列内容。图中深蓝色表示一层感受野,浅蓝色是二层感受野,灰色部分是filter被禁止查看的部分
输入源-目标张量:设给定源语句的长度为|s|,目标对(s, t)的长度为|t|。首先,在ds和dt维空间中通过查找表嵌入词向量。整合两个空间,f0 = dt + ds,把嵌入的词向量{x1, . . . , x|s|}和{y1, . . . , y|t|}并成三维向量X∈R|t|×|s|×f0,其中,
这是卷积神经网络的输入。
卷积层:卷积层参考的是DenseNet的架构,这是图像分类任务上的最新技术。网络中的层都是密集连接的,这意味着不仅是最后一层,每个层都会把前一层的激活函数输出作为自己的输入,从而生成g特征映射。这个参数g是“增长率”,表示每层网络输出的附加通道数。
DenseNet架构
目标序列预测:从最初的f0特征映射开始,DenseNet中的每一层l∈{1, . . . , L}会产生一个大小为|t|×|s|×fl的张量,其中fl是该层的输出通道数。
为了计算输出中的单词分布,我们要折叠张量的第二维,因为它来自输入序列的可变长度,能检索每个目标位置的唯一编码。而做到这点的具体方法是添加一个最大池化层或对输入序列做平均池化。完成池化后,我们可以根据词典用特征进行预测。
实验结果
在实验阶段,我们测试了深层CNN和先进编码器-解码器机器翻译模型在IWSLT德英互译任务上的效果,数据如上表所示。其中Pervasive Attention是本文提出的方法。可以发现,无论是德译英还是英译德,各模型在BPE(字节对编码)上获得的所有结果都优于基于单词的结果。
而横向对比来看,Pervasive Attention和RNN Reasearch有相同的参数量,但前者的BLEU分数比后者高了近3点。Vaswani等人和Gehring等人提出的两个模型可以被看作是近期的最新研究,相比之前的记录,它们确实有不小的进步,但Pervasive Attention还是超过了它们,并且参数只有它们的1/3和1/8。
从计算成本看,Pervasive Attention和RNN Reasearch差不多;而convs2s由于进行了很好的优化,训练用时更短。
小结
本文提出了一种新的神经机器翻译架构,它脱离了编码器-解码器的范畴,能把源序列和目标序列联合编码为深度特征层次结构,其中源语句单词会被嵌入部分目标序列的上下文中。
总得来看,这是一个基于DenseNet的二维CNN,它具有类似注意力机制的属性,理念更简单,参数更好,性能也更好。
全部0条评论
快来发表一下你的评论吧 !