PyTorch教程之长短期记忆(LSTM)-电子发烧友网

在使用反向传播（Elman，1990）训练第一个 Elman 式 RNN 后不久，学习长期依赖性（由于梯度消失和爆炸）的问题变得突出，Bengio 和 Hochreiter 讨论了这个问题（Bengio等人， 1994 年，Hochreiter等人，2001 年）. Hochreiter 早在他 1991 年的硕士论文中就阐明了这个问题，尽管结果并不广为人知，因为论文是用德语写的。虽然梯度裁剪有助于梯度爆炸，但处理消失的梯度似乎需要更精细的解决方案。Hochreiter 和 Schmidhuber ( 1997 )提出的长短期记忆 (LSTM) 模型是解决梯度消失问题的第一个也是最成功的技术之一。LSTM 类似于标准的递归神经网络，但这里每个普通的递归节点都被一个记忆单元取代。每个存储单元包含一个内部状态，即具有固定权重 1 的自连接循环边的节点，确保梯度可以跨越多个时间步而不会消失或爆炸。

“长短期记忆”一词来自以下直觉。简单的递归神经网络具有权重形式的长期记忆。权重在训练过程中缓慢变化，对数据的一般知识进行编码。它们还具有短暂激活形式的短期记忆，从每个节点传递到连续的节点。LSTM 模型通过记忆单元引入了一种中间类型的存储。存储单元是一个复合单元，由具有特定连接模式的较简单节点构成，并包含新的乘法节点。

						import torch
from torch import nn
from d2l import torch as d2l

						 

						from mxnet import np, npx
from mxnet.gluon import rnn
from d2l import mxnet as d2l

npx.set_np()

						import jax
from flax import linen as nn
from jax import numpy as jnp
from d2l import jax as d2l

						 

						import tensorflow as tf
from d2l import tensorflow as d2l

10.1.1。门控存储单元

每个存储单元都配备了一个内部状态和多个乘法门，用于确定 (i) 给定的输入是否应该影响内部状态（输入门），(ii) 内部状态是否应该被刷新到0（遗忘门），以及 (iii) 应该允许给定神经元的内部状态影响细胞的输出（输出门）。

10.1.1.1。门控隐藏状态

普通 RNN 和 LSTM 之间的主要区别在于后者支持隐藏状态的门控。这意味着我们有专门的机制来确定何时应该更新隐藏状态以及何时应该重置它。这些机制是学习的，它们解决了上面列出的问题。例如，如果第一个标记非常重要，我们将学习在第一次观察后不更新隐藏状态。同样，我们将学会跳过不相关的临时观察。最后，我们将学习在需要时重置潜在状态。我们将在下面详细讨论。

10.1.1.2。输入门、遗忘门和输出门

进入 LSTM 门的数据是当前时间步的输入和前一时间步的隐藏状态，如图 10.1.1所示。三个具有 sigmoid 激活函数的全连接层计算输入门、遗忘门和输出门的值。作为 sigmoid 激活的结果，三个门的所有值都在范围内(0,1). 此外，我们需要一个 输入节点，通常使用tanh激活函数计算。直观上，输入门决定了输入节点的多少值应该添加到当前存储单元的内部状态。遗忘门决定是保留内存的当前值还是刷新内存。而输出门决定了记忆单元是否应该影响当前时间步的输出。

https://file.elecfans.com/web2/M00/AA/42/pYYBAGR9NtSAf5ABAAHthNZ6P7E558.svg

图 10.1.1计算 LSTM 模型中的输入门、遗忘门和输出门。

在数学上，假设有h隐藏单元，批量大小为n，输入的数量是d. 因此，输入是Xt∈Rn×d上一个时间步的隐藏状态是 Ht−1∈Rn×h. 相应地，时间步长的门t定义如下：输入门是It∈Rn×h, 遗忘门是 Ft∈Rn×h，输出门是 Ot∈Rn×h. 它们的计算方式如下：

(10.1.1)It=σ(XtWxi+Ht−1Whi+bi),Ft=σ(XtWxf+Ht−1Whf+bf),Ot=σ(XtWxo+Ht−1Who+bo),

在哪里

PyTorch教程之长短期记忆(LSTM)

10.1.1。门控存储单元

10.1.1.1。门控隐藏状态

10.1.1.2。输入门、遗忘门和输出门

PyTorch教程之15.2近似训练

PyTorch教程之循环神经网络

PyTorch教程之时间反向传播

PyTorch教程之数据预处理

基于X12-LSTM模型的保费收入预测研究综述

基于LSTM和遗传算法的股票价格涨跌预测模型

基于时空特性的ST-LSTM网络位置预测模型

基于双向长短时记忆的序列标注神经网络模型

基于双向长短记忆网络等的情感分类方法

基于LSTM网络的在线学习课程推荐模型

基于神经网络和长短期记忆网络的网络入侵检测

基于LSTM的流式文档结构识别方法

基于长短期记忆网络的长距离股票趋势预测

结合小波变换的LSTM循环神经网络的税收预测

基于预训练模型和长短期记忆网络的深度学习模型

基于改进的蝗虫优化算法的LSTM预测方法

LSTM和注意力机制相结合的机器学习模型

基于改进长短时记忆网络的儿童语音情感识别模型

基于PCA和LSTM神经网络的硬件木马检测方法

基于PCA和LSTM神经网络的硬件木马检测方法

基于双向长短期记忆神经网络的交互注意力模型

基于LSTM和CNN融合的深度神经网络个人信用评分方法

基于LSTM模型的多时间尺度融合预测方法

基于双向长短期记忆循环神经网络的句子切分模型

集成WL-CNN和SL-Bi-LSTM的旅游问句文本分类算法

基于长短时记忆网络的自适应零速检测算法

借助长短期记忆网络预测文件访问热度预测

长短时记忆网络(LSTM)

如何使用多注意力长短时记忆进行实体属性的情感分析

如何使用深度长短时记忆神经网络模型进行心律失常检测算法的资料说明

一文读懂LSTM与RNN：从原理到实战，掌握序列建模核心技术

深度学习模型在传感器数据处理中的应用(二):LSTM

RNN与LSTM模型的比较分析

LSTM神经网络与其他机器学习算法的比较

深度学习框架中的LSTM神经网络实现

基于LSTM神经网络的情感分析方法

LSTM神经网络在图像处理中的应用

如何使用Python构建LSTM神经网络模型

LSTM神经网络的训练数据准备方法

LSTM神经网络的结构与工作机制

LSTM神经网络在语音识别中的应用实例

LSTM神经网络的调参技巧

LSTM神经网络与传统RNN的区别

LSTM神经网络的优缺点分析

使用LSTM神经网络处理自然语言处理任务

LSTM神经网络在时间序列预测中的应用

LSTM神经网络的基本原理 如何实现LSTM神经网络

LSTM模型的基本组成

如何理解RNN与LSTM神经网络

基于计算机视觉与机器学习技术的跌倒风险预测

基于CNN-LSTM网络的电力负荷预测

PyTorch教程-10.1. 长短期记忆 (LSTM)

长短时记忆网络(LSTM)介绍

长短租公寓无线门锁解决方案的详细说明

让长短期记忆人工神经网络重返巅峰

循环神经网络LSTM为何如此有效？

基于PyTorch的深度学习入门教程之PyTorch简单知识

一种具有强记忆力的 E3D-LSTM网络，强化了LSTM的长时记忆能力

清华、GoogleAI和斯李飞飞团队提出具有强记忆力的E3D-LSTM网络

循环神经网络（RNN）和（LSTM）初学者指南

下载排行榜

爱华AIWA HS-J202维修手册

PC5502负载均流控制电路数据手册

H110主板CPU PWM芯片ISL95858HRZ-T核心供电电路图资料

UWB653Pro USB口测距通信定位模块规格书

技嘉H110主板IT8628E_BX IO电路图资料

苏泊尔DCL6907(即CHK-S007)单芯片电磁炉原理图资料

LSTM神经网络的基本原理如何实现LSTM神经网络