PyTorch教程9.6之递归神经网络的简洁实现-电子发烧友网

与我们大多数从头开始的实施一样，第 9.5 节旨在深入了解每个组件的工作原理。但是，当您每天使用 RNN 或编写生产代码时，您会希望更多地依赖于减少实现时间（通过为通用模型和函数提供库代码）和计算时间（通过优化这些库实现）。本节将向您展示如何使用深度学习框架提供的高级 API 更有效地实现相同的语言模型。和以前一样，我们首先加载时间机器数据集。

						import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

						 

						from mxnet import np, npx
from mxnet.gluon import nn, rnn
from d2l import mxnet as d2l

npx.set_np()

						from flax import linen as nn
from jax import numpy as jnp
from d2l import jax as d2l

						 

						No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

					

						import tensorflow as tf
from d2l import tensorflow as d2l

9.6.1. 定义模型

我们使用由高级 API 实现的 RNN 定义以下类。

							class RNN(d2l.Module): #@save
  """The RNN model implemented with high-level APIs."""
  def __init__(self, num_inputs, num_hiddens):
    super().__init__()
    self.save_hyperparameters()
    self.rnn = nn.RNN(num_inputs, num_hiddens)

  def forward(self, inputs, H=None):
    return self.rnn(inputs, H)

							 

Specifically, to initialize the hidden state, we invoke the member method begin_state. This returns a list that contains an initial hidden state for each example in the minibatch, whose shape is (number of hidden layers, batch size, number of hidden units). For some models to be introduced later (e.g., long short-term memory), this list will also contain other information.

							class RNN(d2l.Module): #@save
  """The RNN model implemented with high-level APIs."""
  def __init__(self, num_hiddens):
    super().__init__()
    self.save_hyperparameters()
    self.rnn = rnn.RNN(num_hiddens)

  def forward(self, inputs, H=None):
    if H is None:
      H, = self.rnn.begin_state(inputs.shape[1], ctx=inputs.ctx)
    outputs, (H, ) = self.rnn(inputs, (H, ))
    return outputs, H

							 

Flax does not provide an RNNCell for concise implementation of Vanilla RNNs as of today. There are more advanced variants of RNNs like LSTMs and GRUs which are available in the Flax linen API.

							class RNN(nn.Module): #@save
  """The RNN model implemented with high-level APIs."""
  num_hiddens: int

  @nn.compact
  def __call__(self, inputs, H=None):
    raise NotImplementedError

							 

							class RNN(d2l.Module): #@save
  """The RNN model implemented with high-level APIs."""
  def __init__(self, num_hiddens):
    super().__init__()
    self.save_hyperparameters()
    self.rnn = tf.keras.layers.SimpleRNN(
      num_hiddens, return_sequences=True, return_state=True,
      time_major=True)

  def forward(self, inputs, H=None):
    outputs, H = self.rnn(inputs, H)
    return outputs, H

							 

继承自9.5 节RNNLMScratch中的类，下面的类定义了一个完整的基于 RNN 的语言模型。请注意，我们需要创建一个单独的全连接输出层。RNNLM

							class RNNLM(d2l.RNNLMScratch): #@save
  """The RNN-based language model implemented with high-level APIs."""
  def init_params(self):
    self.linear = nn.LazyLinear(self.vocab_size)

  def output_layer(self, hiddens):
    return self.linear(hiddens).swapaxes(0, 1)

							 

							class RNNLM(d2l.RNNLMScratch): #@save
  """The RNN-based language model implemented with high-level APIs."""
  def init_params(self):
    self.linear = nn.Dense(self.vocab_size, flatten=False)
    self.initialize()
  def output_layer(self, hiddens):
    return self.linear(hiddens).swapaxes(0, 1)

							 

							class RNNLM(d2l.RNNLMScratch): #@save
  """The RNN-based language model implemented with high-level APIs."""
  training: bool = True

  def setup(self):
    self.linear = nn.Dense(self.vocab_size)

  def output_layer(self, hiddens):
    return self.linear(hiddens).swapaxes(0, 1)

  def forward(self, X, state=None):
    embs = self.one_hot(X)
    rnn_outputs, _ = self.rnn(embs, state, self.training)
    return self.output_layer(rnn_outputs)

							 

							class RNNLM(d2l.RNNLMScratch): #@save
  """The RNN-based language model implemented with high-level APIs."""
  def init_params(self):
    self.linear = tf.keras.layers.Dense(self.vocab_size)

  def output_layer(self, hiddens):
    return tf.transpose(self.linear(hiddens), (1, 0, 2))

							 

9.6.2. 训练和预测

在训练模型之前，让我们使用随机权重初始化的模型进行预测。鉴于我们还没有训练网络，它会产生无意义的预测。

							data = d2l.TimeMachine(batch_size=1024, num_steps=32)
rnn = RNN(num_inputs=len(data.vocab), num_hiddens=32)
model = RNNLM(rnn, vocab_size=len(data.vocab), lr=1)
model.predict('it has', 20, data.vocab)

							 

'it hasgggggggggggggggggggg'

							data = d2l.TimeMachine(batch_size=1024, num_steps=32)
rnn = RNN(num_hiddens=32)
model = RNNLM(rnn, vocab_size=len(data.vocab), lr=1)
model.predict('it has', 20, data.vocab)

							 

'it hasxlxlxlxlxlxlxlxlxlxl'

							data = d2l.TimeMachine(batch_size=1024, num_steps=32)
rnn = RNN(num_hiddens=32)
model = RNNLM(rnn, vocab_size=len(data.vocab), lr=1)
model.predict('it has', 20, data.vocab)

							 

'it hasnvjdtagwbcsxvcjwuyby'

接下来，我们利用高级 API 训练我们的模型。

							trainer = d2l.Trainer(max_epochs=100, gradient_clip_val=1, num_gpus=1)
trainer.fit(model, data)

https://file.elecfans.com/web2/M00/A9/C8/poYBAGR9NrKAA2V1ABG9IJKp_s8858.svg

							trainer = d2l.Trainer(max_epochs=100, gradient_clip_val=1, num_gpus=1)
trainer.fit(model, data)

https://file.elecfans.com/web2/M00/A9/C8/poYBAGR9NrmAC0QYABHpbt_PvZk929.svg

							with d2l.try_gpu():
  trainer = d2l.Trainer(max_epochs=100, gradient_clip_val=1)
trainer.fit(model, data)

							 

https://file.elecfans.com/web2/M00/A9/C8/poYBAGR9NsGAZ5qbABHCG7mYLzs874.svg

与第 9.5 节相比，该模型实现了相当的困惑度，但由于实现优化，运行速度更快。和以前一样，我们可以在指定的前缀字符串之后生成预测标记。

PyTorch教程9.6之递归神经网络的简洁实现

9.6.1. 定义模型

9.6.2. 训练和预测

PyTorch教程10.4之双向递归神经网络

PyTorch教程10.3之深度递归神经网络

PyTorch教程3.5之线性回归的简洁实现

PyTorch教程16.3之情感分析:使用卷积神经网络

PyTorch教程16.2之情感分析:使用递归神经网络

PyTorch教程8.1之深度卷积神经网络(AlexNet)

PyTorch教程之从零开始的递归神经网络实现

PyTorch教程之循环神经网络

人工神经网络的原理及仿真实例

神经网络基础问题的整理

基于FPGA的神经网络硬件实现方法

基于进化计算的神经网络设计与实现

基于神经网络的优化计算实验

神经网络的基本原理

人工神经网络控制

人工智能-BP神经网络算法的简单实现

基于脉冲神经网络的迁移学习算法

基于剪枝与量化的卷积神经网络压缩算法

基于不同神经网络的文本分类方法研究对比

基于FPGA的RBF神经网络硬件实现

MATLAB实现卷积神经网络CNN的源代码

3小时学习神经网络与深度学习课件下载

神经网络图像压缩算法的FPGA实现技术研究论文免费下载

综述深度神经网络的解释方法及发展趋势

神经网络的最新发展如何

神经网络的方法学习课件免费下载

基于深度神经网络的文本分类分析

如何使用FPGA实现BP神经网络的仿真线设计

如何使用FPGA实现神经网络硬件的设计方法

神经网络与神经网络控制的学习课件免费下载

PyTorch如何实现多层全连接神经网络

pytorch中有神经网络模型吗

递归神经网络和循环神经网络的模型结构

递归神经网络的实现方法

PyTorch神经网络模型构建过程

rnn是递归神经网络还是循环神经网络

递归神经网络结构形式主要分为

简述递归神经网络的计算过程

递归神经网络与循环神经网络一样吗

递归神经网络主要应用于哪种类型数据

递归神经网络是循环神经网络吗

递归神经网络的结构、特点、优缺点及适用场景

循环神经网络和递归神经网络的区别

卷积神经网络的原理与实现

使用PyTorch构建神经网络

卷积神经网络和深度神经网络的优缺点 卷积神经网络和深度神经网络的区别

PyTorch教程-9.6. 递归神经网络的简洁实现

浅析三种主流深度神经网络

浅析三种主流深度神经网络

三个最流行神经网络

用Python从头实现一个神经网络来理解神经网络的原理4

用Python从头实现一个神经网络来理解神经网络的原理3

用Python从头实现一个神经网络来理解神经网络的原理2

用Python从头实现一个神经网络来理解神经网络的原理1

什么是神经网络？什么是卷积神经网络？

使用PyTorch深度解析卷积神经网络

前沿高端技术之递归神经网络（RNN）

基于PyTorch的深度学习入门教程之训练一个神经网络分类器

基于PyTorch的深度学习入门教程之使用PyTorch构建一个神经网络

深入浅出LSTM神经网络

下载排行榜

人形机器人执行、感知系统技术及市场解析

瑞芯微RK3588系列开发板-产品资料更新-2026.06

OK3506-S12 Mini开发板产品资料-2025.10

ZS73XGaN 高性能 PWM+D-GaN 芯片数据手册

FS4054H 输入电压范围3.8V~6.8V 输入最大耐压28V 输入过压关闭充电阈值6.8V

LZC9300A 高性能恒压恒流碳化硅驱动控制芯片

卷积神经网络和深度神经网络的优缺点卷积神经网络和深度神经网络的区别