目前,大多数用于深度学习的构建块、技术和体系结构都是基于实值操作和表示的。然而,最近对递归神经网络和旧的基本理论分析的研究表明,复数可能具有更丰富的表示能力,也可能促进噪声鲁棒记忆检索机制。尽管复杂值深层神经网络具有吸引人的特性和开发全新神经架构的潜力,但由于缺乏设计此类模型所需的构建块,因此它们已被边缘化。在这项工作中,我们为复值深层神经网络提供了关键的原子成分,并将其应用于卷积前馈网络和卷积LSTM。更准确地说,我们依靠复杂卷积和现有算法实现复杂的批处理规范化、复杂值神经网络的复杂权重初始化策略,并将它们用于端到端训练方案的实验。我们证明了这种复杂价值模型与现实价值模型具有竞争性。我们在几个计算机视觉任务、使用MusicNet数据集的音乐转录和使用Timit数据集的语音频谱预测上测试了深层复杂模型。我们在这些与音频相关的任务上实现了最先进的性能。
最近的研究进展在解决学习深度神经网络体系结构的困难方面取得了重大进展。关键创新包括标准化技术(IOffe和Szegedy,2015年;Salimans和Kingma,2016年)和基于门控的前馈神经网络(如公路网络)的出现(srivastava等人,2015年)。剩余网络(He等人,2015a;2016年)已经成为一个最流行和最有效的训练非常深的卷积神经网络(CNN)的策略之一。公路网络和剩余网络都通过为较低的网络层提供容易的梯度流的快捷路径,从而减少了效率,从而促进了深层网络的训练。消失梯度的ECTS(Hochreiter,1991年)。He等人(2016)表明学习层的显式残差有助于避免消失梯度问题,为网络提供了一个更容易的优化问题。批量规范化(IOffe和Szegedy,2015年)表明,通过小批量标准化网络中中间层的激活可以作为一个强大的正则化器,并提供更快的训练和更好的收敛特性。此外,这种标准化层输出的技术在深层体系结构中由于渐变问题的消失和爆炸而变得至关重要。
基于复数的表示的作用已经开始受到越来越多的关注,因为它们有可能实现更简单的优化(Nitta,2002年)、更好的泛化特征(Hirose和Yoshida,2012年)、更快的学习(Arjovsky等人,2015年;DaniheLka等人,2016年;Wistom等人,2016年),以及考虑噪声鲁棒记忆机制(Danielka等人,2016年)。Wistom等人。(2016)和Arjovsky等人(2015)表明,在递归神经网络(RNN)中使用复数可以使网络具有更丰富的表示能力。Danielka等人(2016)提出了一个LSTM(Hochreiter和Schmidhuber,1997)体系结构,该体系结构增加了具有复杂值内部表示的关联内存。他们的工作强调了在检索和插入关联内存时使用复杂值表示的优点。在残差网络中,每个块的输出都被加到通过求和而累积的输出历史中,直到该点为止。一个有效的检索机制可以帮助提取有用的信息并在块内进行处理。
为了充分利用复杂表示的优点,我们提出了一个复杂值深神经网络构造组件的一般公式,并将其应用于前馈卷积网络和卷积LSTM的上下文中。我们在本文中的贡献如下:
1.第3.5节中描述的复杂批次标准化的公式;
2.复杂重量初始化,见第3.6节;
3.比较第4.1节中介绍的不同的基于复值RELU的激活函数;
4.第4.2节介绍的MusicNet多乐器音乐转录数据集的最新成果;
5.第4.3节中介绍了TIMIT数据集语音频谱预测任务的最新成果。
我们对我们的深层复杂网络进行了健全性检查,并在标准图像分类基准(特别是CIFAR-10、CIFAR-100)上证明了其有效性。我们还使用了一组简化的svhn,我们称之为svhn*。对于与音频相关的任务,我们在MusicNet数据集上执行音乐转录任务,在Timit上执行语音频谱预测任务。对视觉分类任务的研究结果表明,学习复杂值表示可以获得与实际值体系结构相竞争的性能。我们在音乐转录和语音频谱预测方面的有希望的结果强调了深复值神经网络应用于声学相关任务的潜力1–我们继续讨论使用复杂操作和相关工作的动机。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !