神经网络的DBN与GAN及RNN等形象的详细资料讲解

Rob_51b 2020-05-24 5160

电子说

1.3w人已加入

描述

一、深度信念网络（DBN）

2006年，神经网络之父Geoffrey Hinton祭出神器深度信念网络，一举解决了深层神经网络的训练问题，推动了深度学习的快速发展。深度信念网络（Deep Belief Nets），是一种概率生成模型，能够建立输入数据和输出类别的联合概率分布。深度信念网络通过采用逐层训练的方式，解决了深层次神经网络的优化问题，通过逐层训练为整个网络赋予了较好的初始权值，使得网络只要经过微调就可以达到最优解。深度信念网络的每个隐藏层都扮演着双重角色：它既作为之前神经元的隐藏层，也作为之后神经元的可见层。在逐层训练的时候起到最重要作用的是“受限玻尔兹曼机” 结构上看，深度信念网络可以看成受限玻尔兹曼机组成的整体 1. 玻尔兹曼机（BM）玻尔兹曼机，（Boltzmann Machines，简称BM），1986年由大神Hinton提出，是一种根植于统计力学的随机神经网络，这种网络中神经元只有两种状态（未激活、激活），用二进制0、1表示，状态的取值根据概率统计法则决定。由于这种概率统计法则的表达形式与著名统计力学家L.E.Boltzmann提出的玻尔兹曼分布类似，故将这种网络取名为“玻尔兹曼机”。在物理学上，玻尔兹曼分布是描述理想气体在受保守外力的作用时，处于热平衡态下的气体分子按能量的分布规律。在统计学习中，如果我们将需要学习的模型看成高温物体，将学习的过程看成一个降温达到热平衡的过程。能量收敛到最小后，热平衡趋于稳定，也就是说，在能量最少的时候，网络最稳定，此时网络最优。玻尔兹曼机（BM）可以用在监督学习和无监督学习中。在无监督学习中，隐变量可以看做是可见变量的内部特征表示，能够学习数据中复杂的规则。玻尔兹曼机代价是训练时间很长很长很长。2. 受限玻尔兹曼机（RBM）受限玻尔兹曼机（Restricted Boltzmann Machines，简称RBM）将“玻尔兹曼机”（BM）的层内连接去掉，对连接进行限制，就变成了“受限玻尔兹曼机”（RBM）一个两层的神经网络，一个可见层和一个隐藏层。可见层接收数据，隐藏层处理数据，两层以全连接的方式相连，同层之前不相连。受限玻尔兹曼机需要将输出结果反馈给可见层，通过让重构误差在可见层和隐藏层之间循环往复地传播，从而重构出误差最小化的一组权重系数。传统的反向传播方法应用于深度结构在原则上是可行的，可实际操作中却无法解决梯度弥散的问题梯度弥散（gradient vanishing），当误差反向传播时，传播的距离越远，梯度值就变得越小，参数更新的也就越慢。这会导致在输出层附近，隐藏层的参数已经收敛；而在输入层附近，隐藏层的参数几乎没有变化，还是随机选择的初始值。

二、生成对抗网络（GAN）

就像孙悟空和牛魔王一样抢夺紫霞仙子，进入对抗状态

GAN（Generative Adversarial Network）是由Goodfellow等人于2014年设计的生成模型，受博弈论中的零和博弈启发，将生成问题视作生成器和判别器这两个网络的对抗和博弈。该方法由是由Goodfellow等人于2014年提出，生成对抗网络由一个生成器与一个判别器组成，生成网器从潜在空间中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别器的输入为真实样本或生成器的输出，其目的是将生成器的输出从真实样本中尽可能分辨出来。 GAN主要优点是超越了传统神经网络分类和特征提取的功能，能够按照真实数据的特点生成新的数据。两个网络在对抗中进步，在进步后继续对抗，由生成式网络得的数据也就越来越完美，逼近真实数据，从而可以生成想要得到的数据（图片、序列、视频等）。1. 生成器（generator）生成器从给定噪声中（一般是指均匀分布或者正态分布）产生合成数据。试图产生更接近真实的数据。 “生成器像是白骨精，想方设法从随机噪声中模拟真实数据样本的潜在分布，以生成以假乱真的数据样本”2. 判别器（discriminator）判别器分辨生成器的的输出和真实数据。试图更完美地分辨真实数据与生成数据。 “判别器是孙悟空，用火眼金睛来判断是人畜无害的真实数据还是生成器假扮的伪装者” 生成器和判别器都可以采用深度神经网络实现，建立数据的生成模型，使生成器尽可能精确你有没出数据样本的分布，从学习方式上对抗性学习属于无监督学习，

网络训练可以等效为目录函数的极大-极小问题

极大：让判别器区分真实数据和伪造数据的准确率最大化

极小：让生成器生成的数据被判别器发现的概率最小化

传统生成模型定义了模型的分布，进而求解参数。比如在已知数据满足正态分布的前提下，生成模型会通过极大似然估计等方法根据样本来求解正态的均值和方差。生成对抗网络摆脱了对模型分布的依赖，也不限制生成的维度，大大拓宽了生成数据样本的范围，还能融合不同的损失函数，增加了设计的自由度。

三、循环神经网络（RNN）

循环网络，如同月光宝盒，时间在不停地循环

循环神经网络（Recurrent Neural Network），也可以表示递归神经网络（Recursive Neural Network）。循环神经网络可以看成是递归神经网络的特例，递归神经网络可以看成是循环神经网络的推广。卷积神经网络具有空间上的参数共享的特性，可以让同样的核函数应用在图像的不同区域。把参数共享调整到时间维度上，让神经网络使用相同权重系数来处理具有先后顺序的数据，得到的就是循环神经网络。

时间

循环神经网络引入了”时间“的维度，适用于处理时间序列类型的数据。

循环神经网络就是将长度不定的输入分割为等长的小块，再使用相同的权重系统进行处理，从而实现对变长输入的计算与处理。

比方说妈妈在厨房里突然喊你：“菜炒好了，赶紧来。。.。。.”，即使后面的话没有听清楚，也能猜到十有八九是让你赶紧吃饭

记忆

循环神经网络t时刻的输出取决于当前时刻的输入，也取决于网络前一时刻t-1甚至更早的输出。

从这个意义上来讲，循环神经网络引入引入了反馈机制，因而具有了记忆功能。记忆功能使循环神经网络能够提取来自序列自身的信息，输入序列的内部信息存储在神经网络的隐藏层中，并随着时间的推移在隐藏层中流转。循环网络的记忆特性可以用公式表示为

神经网络

W 表示从输入到状态的权重矩阵，U 表示从状态到状态的转移矩阵。

对循环神经网络的训练就是根据输出结果和真实结果之间的误差不断调整参数 W 和 U，直到达到预设要求的过程，训练方法也是基于梯度的反向传播算法。前馈神经网络某种程序上也具有记忆特性，只要神经网络参数经过最优化，优化的参数就会包含以往数据的踪迹，但是优化的记忆只局限于训练数据集上，当训练的醋应用到新的测试数据集上时，其参数并不会根据测试数据的表现做出进一步调整。1. 双向RNN比如有一部电视剧，在第三集的时候才出现的人物，现在让预测一下在第三集中出现的人物名字，你用前面两集的内容是预测不出来的，所以你需要用到第四，第五集的内容来预测第三集的内容，这就是双向RNN的想法

如果想让循环神经网络利用来自未来的信息，就要让当前的状态和以后时刻的状态建立直联系，就是双向循环神经网络。

双向循环网络包括正向计算和反向计算两个环节

神经网络

双向循环网络需要分别计算正向和反向的结果，并将两者作为隐藏层的最终参数。

2. 深度RNN将深度结构引入循环神经网络就可以得到深度循环网络。比如你学习英语的时候，背英语单词一定不会就看一次就记住了所有要考的单词，一般是带着先前几次背过的单词，然后选择那些背过但不熟的内容或者没背过的单词来背

深层双向RNN 与双向RNN相比，多了几个隐藏层，因为他的想法是很多信息记一次记不下来，深层双向RNN就是基于这么一个想法，每个隐藏层状态h_{t}^{i}既取决于同一时刻前一隐藏层的状态h_{t}^{i-1}，也取决于同一隐藏层的状态h_{t-1}^{i} 深度结构的作用在于建立更清晰的表示。用“完形填空”来说，需要根据上下文，来选择合适的词语。有些填空只需要根据它所在的句子便可以推断出来，这对应着单个隐藏层在时间维度上的依赖性；有些填空则可能要通读整段或全文才能确定，这对应了时间维度和空间维度共有的依赖性。3. 递归RNN递归神经网络能够处理具有层次化结构的数据，可以看成循环网络的推广

循环神经网络特点是在时间维度上共享参数，从而展开处理序列，如果展开成树状态结构，用到的就是递归神经网络。递归神经网络首先将输入数据转化为某种拓扑结构，再在相同的结构上递归使用相同的权重系数，通过遍历方式得到结构化的预测。例如，“两个大学的老师”有歧义，如果单纯拆分为词序列无法消除歧义。

递归神经网络通过树状结构将一个完整的句子打散为若干分量的组合，生成的向量不是树结构的根节点。

四、长短期记忆网络（LSTM）

如果非要给记忆加一个期限，希望是一万年

长短期记忆网络（LSTM，Long Short-Term Memory）是一种时间循环神经网络，为了解决一般的RNN（循环神经网络）存在的长期依赖问题而专门设计出来的，论文首次发表于1997年。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

RNN通过在时间共享参数引入了记特性，从而可以将先前的信息应用在当前的任务上，可是这种记忆通常只有有限的深度。例如龙珠超或者火影每周更新一集，即使经历了一周的空档期，我们还是能将前一集的内容和新一集的情节无缝衔接起来。但是RNN的记忆就没有这么强的延续性，别说一个星期，5分钟估计都已经歇菜了。 LSTM可以像人的记忆中选择性地记住一些时间间隔更久远的信息，它会根据组成元素的特性，来判断不同信息是被遗忘或被记住继续传递下去。

LSTM就是实现长期记忆用的，实现任意长度的记忆。要求模型具备对信息价值的判断能力，结合自身确定哪些信息应该保存，哪些信息该舍弃，元还要能决定哪一部分记忆需要立刻使用。4种组成LSTM通常由下面4个模块组成

① 记忆细胞（memory cell）

作用是存储数值或状态，存储的时限可以是长期也可以是短期 ② 输入门（input gate）

决定哪些信息在记忆细胞中存储 ③ 遗忘门（forget gate）

决定哪些信息从记忆细胞中丢弃 ④ 输出门（output gate）

决定哪些信息从记忆细胞中输出

五、卷积神经网络（CNN）

将鲜花用包装纸沿着对角线卷起来，顾名思义卷积

卷积神经网络（convolutional neural network）指至少某一导中用了卷积运算（convolution）来代替矩阵乘法的神经网络。

1. 卷积是什么卷积是对两个函数进行的一种数学运算，我们称（f∗g）（n）为f，g的卷积

神经网络

我们令x=τ，y=n−τ，那么x+y=n，相当于下面的直线

神经网络

如果遍历这些直线，就像毛巾卷起来一样，顾名思义“卷积” 在卷积网络中，卷积本质就是以核函数g作为权重系数，对输入函数f进行加权求和的过程。其实把二元函数U（x，y）=f（x）g（y）卷成一元函数V（t），俗称降维打击神经网络函数 f 和 g 应该地位平等，或者说变量 x 和 y 应该地位平等，一种可取的办法就是沿直线 x+y = t 卷起来；① 掷骰子求两枚骰子点数加起来为4的概率，这正是卷积的应用场景。第一枚骰子概率为为f（1）、f（2）、。。.f（6）