长短时记忆网络(LSTM)

消耗积分:3 | 格式:pdf | 大小:215.61KB | 2021-01-27

mintsy

分享资料个

长短时记忆网络

循环神经网络很难训练的原因导致它的实际应用中很处理长距离的依赖。本文将介绍改进后的循环神经网络：长短时记忆网络(Long Short Term Memory Network, LSTM)，

原始RNN的隐藏层只有一个状态，即h，它对于短期的输入非常敏感。那么如果我们再增加一个状态，即c，让它来保存长期的状态，这就是长短时记忆网络。

新增加的状态c，称为单元状态。我们把上图按照时间维度展开：

可以看到在 t 时刻，LSTM的输入有三个：当前时刻网络的输出值 x_t 、上一时刻LSTM的输出值 h_t−1、以及上一时刻的单元状态 c_t−1；LSTM的输出有两个：当前时刻LSTM输出值 h_t 、和当前时刻的单元状态 x_t 。注意 x、h、c 都是向量。

LSTM的关键，就是怎样控制长期状态c。在这里，LSTM的思路是使用三个控制开关。第一个开关，负责控制继续保存长期状态c；第二个开关，负责控制把即时状态输入到长期状态c；第三个开关，负责控制是否把长期状态c作为当前的LSTM的输出。三个开关的作用如下图所示：

接下来我们要描述一下，输出h和单元状态c的具体计算方法。

长短时记忆网络的前向计算

我们引入“门(gate)”的概念。门实际上就是一层全连接层，它的输入是一个向量，输出是一个0到1之间的实数向量。假设W是门的权重向量，b是偏置项，那么门可以表示为：

门的输出是0到1之间的实数向量，用门向量的输出向量按元素乘以我们需要控制的那个向量，当门输出为0时，任何向量与之相乘都会得到0向量，这就相当于啥都不能通过；输出为1时，任何向量与之相乘都不会有任何改变，这就相当于啥都可以通过。因为σ（也就是sigmoid函数）的值域是(0,1)，所以门的状态都是半开半闭的。

LSTM用两个门来控制单元状态 c 的内容，一个是遗忘门，它决定了上一时刻的单元状态 _t−1 有多少保留到当前时刻 c_t ；另外一个是输出门，他决定了当前时刻网络的输入 x_t 有多少保存到单元状态 c_t 。LSTM用输出门来控制单元状态 c_t 有多少输出到LSTM的当前输出值 h_t 。LSTM用输出门来控制单元状态 c_t 有多少输出到LSTM的当前输出值ht。

遗忘门的表达式是：

上式中，W_f 是遗忘门的权重矩阵，h_t−1 , x_t 表示把两个向量连接成一个更长的向量，b_f 是遗忘门的偏置项，σ是sigmoid函数。如果输入的维度是d_x，隐藏层的维度是 d_h，单元状态的维度是 d_c( d_c = d_h )，则遗忘门的权重矩阵 W_f维度是 d_cx(d_h + d_x ) 。事实上，权重矩阵 W_f 都是两个矩阵拼接而成的：一个是Wfh，它对应着输入项 h_t−1 ，其维度为 d_cxd_h；一个是W_fx，它对应着输入项 x_t ，其维度为dcxdx。W_f 可以写为：

下图显示了遗忘门的计算：

接下来看看输入门：

上式中，W_i 是输入门的权重矩阵，$b_i$是输入门的偏置项。下图表示了输入门的计算：

接下来，我们计算用于描述当前输入的单元状态，它是根据上一次的输出和本次输入来计算的：

下图是的计算：

现在，我们计算当前时刻的单元状态 c_t。它是由上一次的单元状态 c_t−1 按元素乘以遗忘门 f_t ，再用当前输入的单元状态按元素乘以输入门 i_t ，再将两个积加和产生的：

符号O表示按元素乘。下图是 c_t 的计算：

这样，我们就把LSTM关于当前的记忆和长期的记忆 c_t−1 组合在一起，形成了新的单元状态 c_t 。由于遗忘门的控制，它可以保存很久很久之前的信息，由于输入门的控制，它又可以避免当前无关紧要的内容进入记忆。下面，我们要看看输出门，它控制了长期记忆对当前输出的影响：

下面表示输出门的计算：

LSTM最终的输出，是由输出门和单元状态共同确定的：

下图表示LSTM最终输出的计算：

式1到式6就是LSTM前向计算的全部公式。至此，我们就把LSTM前向计算讲完了。

长短时记忆网络的训练

LSTM训练算法框架

LSTM的训练算法仍然是反向传播算法，对于这个算法，我们已经非常熟悉了。主要有下面三个步骤：

1、前向计算每个神经元的输出值，对于LSTM来说，即 f_t、i_t、c_t、o_t、h_t 五个向量的值。计算方法已经在上一节中描述过了。

2、反向计算每个神经元的误差项δ值。与循环神经网络一样，LSTM误差项的反向传播也是包括两个方向：一个是沿时间的反向传播，即从当前t时刻开始，计算每个时刻的误差项；一个是将误差项向上一层传播。

3、根据相应的误差项，计算每个权重的梯度。

作者：凌逆战
来源：博客园
原文链接：https://www.cnblogs.com/LXP-Never/p/10398531.html

欢迎任何形式的转载，但请务必注明出处。
限于本人水平，如果文章和代码有表述不当之处，还请不吝赐教。
本文章不做任何商业用途，仅作为自学所用，文章后面会有参考链接，我可能会复制原作者的话，如果介意，我会修改或者删除。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

瑞芯微RK3588系列开发板-产品资料更新-2026.06
2026-06-08 7次下载

下载
ZS7606XY同步整流使用规格书
2026-06-10 4次下载

下载
LZC9300A 高性能恒压恒流碳化硅驱动控制芯片
2026-06-06 3次下载

下载
ZS73XGaN 高性能 PWM+D-GaN 芯片数据手册
2026-06-10 3次下载

下载
瑞芯微RK3572开发板-产品资料更新-2026.06
2026-06-24 3次下载

下载
OK3506-S12 Mini开发板产品资料-2025.10
2026-06-08 3次下载

下载

长短时记忆网络(LSTM)

PyTorch教程之长短期记忆(LSTM)

基于X12-LSTM模型的保费收入预测研究综述

基于LSTM和遗传算法的股票价格涨跌预测模型

基于LSTM模型的信号调制类型识别方法

融合EMD与LSTM网络的频谱占用度预测模型

基于时空特性的ST-LSTM网络位置预测模型

基于双向长短时记忆的序列标注神经网络模型

基于双向长短记忆网络等的情感分类方法

基于神经网络和长短期记忆网络的网络入侵检测

基于深度级联孪生网络的通信信号调制识别算法

基于LSTM的流式文档结构识别方法

一种基于准循环神经网络的语音增强方法

基于长短期记忆网络的长距离股票趋势预测

结合小波变换的LSTM循环神经网络的税收预测

基于预训练模型和长短期记忆网络的深度学习模型

基于改进的蝗虫优化算法的LSTM预测方法

使用双向长短时记忆网络检测跨站脚本攻击

基于改进长短时记忆网络的儿童语音情感识别模型

基于PCA和LSTM神经网络的硬件木马检测方法

基于PCA和LSTM神经网络的硬件木马检测方法

基于双向长短期记忆神经网络的交互注意力模型

基于LSTM和CNN融合的深度神经网络个人信用评分方法

基于LSTM模型的多时间尺度融合预测方法

基于双向长短期记忆循环神经网络的句子切分模型

基于长短时记忆网络的自适应零速检测算法

借助长短期记忆网络预测文件访问热度预测

如何使用神经网络实现实体属性情感分析

如何使用空间合作关系实现基站流量预测的模型

如何使用神经网络技术实现实体属性的情感分析

使用空间合作关系实现基站流量预测模型的资料说明

一文读懂LSTM与RNN：从原理到实战，掌握序列建模核心技术

RNN与LSTM模型的比较分析

LSTM神经网络与其他机器学习算法的比较

深度学习框架中的LSTM神经网络实现

基于LSTM神经网络的情感分析方法

LSTM神经网络在图像处理中的应用

如何使用Python构建LSTM神经网络模型

LSTM神经网络的训练数据准备方法

LSTM神经网络的结构与工作机制

LSTM神经网络在语音识别中的应用实例

LSTM神经网络的调参技巧

LSTM神经网络与传统RNN的区别

LSTM神经网络的优缺点分析

使用LSTM神经网络处理自然语言处理任务

LSTM神经网络在时间序列预测中的应用

LSTM神经网络的基本原理 如何实现LSTM神经网络

LSTM模型的基本组成

如何理解RNN与LSTM神经网络

循环神经网络的基本概念

用于自然语言处理的神经网络有哪些

基于深度学习的语音合成技术的进展与未来趋势

PyTorch教程-10.1. 长短期记忆 (LSTM)

深度学习的四大底层逻辑2

深度学习的四大底层逻辑1

用于智能医疗的智能传感器和医疗物联网

长短时记忆网络(LSTM)介绍

让长短期记忆人工神经网络重返巅峰

循环神经网络LSTM为何如此有效？

一种具有强记忆力的 E3D-LSTM网络，强化了LSTM的长时记忆能力

清华、GoogleAI和斯李飞飞团队提出具有强记忆力的E3D-LSTM网络

下载排行榜

瑞芯微RK3588系列开发板-产品资料更新-2026.06

ZS7606XY同步整流使用规格书

LZC9300A 高性能恒压恒流碳化硅驱动控制芯片

ZS73XGaN 高性能 PWM+D-GaN 芯片数据手册

瑞芯微RK3572开发板-产品资料更新-2026.06

OK3506-S12 Mini开发板产品资料-2025.10

LSTM神经网络的基本原理如何实现LSTM神经网络