简单理解LSTM神经网络

消耗积分:2 | 格式:pdf | 大小:782.98KB | 2021-03-04

5762

分享资料个

递归神经网络

在传统神经网络中，模型不会关注上一时刻的处理会有什么信息可以用于下一时刻，每一次都只会关注当前时刻的处理。举个例子来说，我们想对一部影片中每一刻出现的事件进行分类，如果我们知道电影前面的事件信息，那么对当前时刻事件的分类就会非常容易。实际上，传统神经网络没有记忆功能，所以它对每一刻出现的事件进行分类时不会用到影片已经出现的信息，那么有什么方法可以让神经网络能够记住这些信息呢？答案就是Recurrent Neural Networks（RNNs）递归神经网络。

递归神经网络的结果与传统神经网络有一些不同，它带有一个指向自身的环，用来表示它可以传递当前时刻处理的信息给下一时刻使用，结构如下：

其中， X_t 为输入，A 为模型处理部分， h_t 为输出。

为了更容易地说明递归神经网络，我们把上图展开，得到：

这样的一条链状神经网络代表了一个递归神经网络，可以认为它是对相同神经网络的多重复制，每一时刻的神经网络会传递信息给下一时刻。如何理解它呢？假设有这样一个语言模型，我们要根据句子中已出现的词预测当前词是什么，递归神经网络的工作原理如下：

其中，W 为各类权重，x 表示输入，y 表示输出，h 表示隐层处理状态。

递归神经网络因为具有一定的记忆功能，可以被用来解决很多问题，例如：语音识别、语言模型、机器翻译等。但是它并不能很好地处理长时依赖问题。

长时依赖问题

长时依赖是这样的一个问题，当预测点与依赖的相关信息距离比较远的时候，就难以学到该相关信息。例如在句子”我出生在法国，……，我会说法语“中，若要预测末尾”法语“，我们需要用到上下文”法国“。理论上，递归神经网络是可以处理这样的问题的，但是实际上，常规的递归神经网络并不能很好地解决长时依赖，好的是LSTMs可以很好地解决这个问题。

LSTM 神经网络

Long Short Term Mermory network（LSTM）是一种特殊的RNNs，可以很好地解决长时依赖问题。那么它与常规神经网络有什么不同？
首先我们来看RNNs具体一点的结构：

所有的递归神经网络都是由重复神经网络模块构成的一条链，可以看到它的处理层非常简单，通常是一个单tanh层，通过当前输入及上一时刻的输出来得到当前输出。与神经网络相比，经过简单地改造，它已经可以利用上一时刻学习到的信息进行当前时刻的学习了。

LSTM的结构与上面相似，不同的是它的重复模块会比较复杂一点，它有四层结构：

其中，处理层出现的符号及表示意思如下：

LSTMs的核心思想

理解LSTMs的关键就是下面的矩形方框，被称为memory block（记忆块），主要包含了三个门（forget gate、input gate、output gate）与一个记忆单元（cell）。方框内上方的那条水平线，被称为cell state（单元状态），它就像一个传送带，可以控制信息传递给下一时刻。

这个矩形方框还可以表示为：

这两个图可以对应起来看，下图中心的 c_t 即cell，从下方输入（ h_{t−1 , x_t ）到输出 ht的一条线即为cell state， f_t，i_t，o_t 分别为遗忘门、输入门、输出门，用sigmoid层表示。上图中的两个tanh层则分别对应cell的输入与输出。}

LSTM可以通过门控单元可以对cell添加和删除信息。通过门可以有选择地决定信息是否通过，它有一个sigmoid神经网络层和一个成对乘法操作组成，如下：

该层的输出是一个介于0到1的数，表示允许信息通过的多少，0 表示完全不允许通过，1表示允许完全通过。

逐步解析LSTM

LSTM第一步是用来决定什么信息可以通过cell state。这个决定由“forget gate”层通过 sigmoid 来控制，它会根据上一时刻的输出 h_t−1 和当前输入 x_t 来产生一个0到1 的 f_t 值，来决定是否让上一时刻学到的信息 C_t−1 通过或部分通过。如下：

举个例子来说就是，我们在之前的句子中学到了很多东西，一些东西对当前来讲是没用的，可以对它进行选择性地过滤。

第二步是产生我们需要更新的新信息。这一步包含两部分，第一个是一个“input gate”层通过sigmoid来决定哪些值用来更新，第二个是一个tanh层用来生成新的候选值，它作为当前层产生的候选值可能会添加到cell state中。我们会把这两部分产生的值结合来进行更新。

现在我们对老的cell state进行更新，首先，我们将老的cell state乘以 f_t 来忘掉我们不需要的信息，然后再与 i_t ∗ 相加，得到了候选值。
一二步结合起来就是丢掉不需要的信息，添加新信息的过程：

举个例子就是，在前面的句子中我们保存的是张三的信息，现在有了新的李四信息，我们需要把张三的信息丢弃掉，然后把李四的信息保存下来。

最后一步是决定模型的输出，首先是通过sigmoid层来得到一个初始输出，然后使用tanh将 C_t 值缩放到-1到1间，再与sigmoid得到的输出逐对相乘，从而得到模型的输出。

这显然可以理解，首先sigmoid函数的输出是不考虑先前时刻学到的信息的输出，tanh函数是对先前学到信息的压缩处理，起到稳定数值的作用，两者的结合学习就是递归神经网络的学习思想。至于模型是如何学习的，那就是后向传播误差学习权重的一个过程了。

上面是对LSTM一个典型结构的理解，当然，它也会有一些结构上的变形，但思想基本不变，这里也就不多讲了。

来源：电子创新网

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

人形机器人执行、感知系统技术及市场解析
2026-05-20 50次下载

下载
瑞芯微RK3562开发板资料-飞凌嵌入式
2026-05-12 2次下载

下载
FS4054H 输入电压范围3.8V~6.8V 输入最大耐压28V 输入过压关闭充电阈值6.8V
2026-05-22 2次下载

下载
OK3506-S12 Mini开发板产品资料-2025.10
2026-06-08 2次下载

下载
瑞芯微RK3588系列开发板-产品资料更新-2026.06
2026-06-08 2次下载

下载
LZC9300A 高性能恒压恒流碳化硅驱动控制芯片
2026-06-06 1次下载

下载

简单理解LSTM神经网络

人工神经网络的原理及仿真实例

神经网络及BP与RBF的比较

神经网络基础问题的整理

BP神经网络的研究进展

基于进化计算的神经网络设计与实现

基于神经网络的优化计算实验

神经网络的基本原理

人工神经网络控制

人工智能-BP神经网络算法的简单实现

基于脉冲神经网络的迁移学习算法

基于剪枝与量化的卷积神经网络压缩算法

基于不同神经网络的文本分类方法研究对比

基于LSTM神经网络的评论句子依赖联系分析

结合小波变换的LSTM循环神经网络的税收预测

MATLAB实现卷积神经网络CNN的源代码

神经网络技术(原理篇)

3小时学习神经网络与深度学习课件下载

基于PCA和LSTM神经网络的硬件木马检测方法

基于PCA和LSTM神经网络的硬件木马检测方法

综述深度神经网络的解释方法及发展趋势

基于LSTM和CNN融合的深度神经网络个人信用评分方法

神经网络的最新发展如何

神经网络的方法学习课件免费下载

基于深度神经网络的文本分类分析

模糊控制与神经网络的资料总结

如何使用神经网络实现实体属性情感分析

长短时记忆网络(LSTM)

神经网络的应用及发展的详细资料说明

神经网络与神经网络控制的学习课件免费下载

BP神经网络的简单MATLAB实例免费下载

深度学习入门：简单神经网络的构建与实现

LSTM神经网络与其他机器学习算法的比较

深度学习框架中的LSTM神经网络实现

基于LSTM神经网络的情感分析方法

LSTM神经网络在图像处理中的应用

如何使用Python构建LSTM神经网络模型

如何优化LSTM神经网络的性能

LSTM神经网络的训练数据准备方法

LSTM神经网络的结构与工作机制

LSTM神经网络在语音识别中的应用实例

LSTM神经网络的调参技巧

LSTM神经网络与传统RNN的区别

LSTM神经网络的优缺点分析

使用LSTM神经网络处理自然语言处理任务

LSTM神经网络在时间序列预测中的应用

LSTM神经网络的基本原理 如何实现LSTM神经网络

BP神经网络和人工神经网络的区别

如何理解RNN与LSTM神经网络

全连接前馈神经网络与前馈神经网络的比较

rnn是递归神经网络还是循环神经网络

卷积神经网络通俗理解

卷积神经网络通俗理解

用Python从头实现一个神经网络来理解神经网络的原理4

用Python从头实现一个神经网络来理解神经网络的原理3

用Python从头实现一个神经网络来理解神经网络的原理2

用Python从头实现一个神经网络来理解神经网络的原理1

什么是神经网络？什么是卷积神经网络？

循环神经网络LSTM为何如此有效？

一文带你简单理解LSTM神经网络

深度神经网络的实现机理与决策逻辑难以理解

下载排行榜

人形机器人执行、感知系统技术及市场解析

瑞芯微RK3562开发板资料-飞凌嵌入式

FS4054H 输入电压范围3.8V~6.8V 输入最大耐压28V 输入过压关闭充电阈值6.8V

OK3506-S12 Mini开发板产品资料-2025.10

瑞芯微RK3588系列开发板-产品资料更新-2026.06

LZC9300A 高性能恒压恒流碳化硅驱动控制芯片

LSTM神经网络的基本原理如何实现LSTM神经网络