PyTorch教程10.5之机器翻译和数据集-电子发烧友网

在引起人们对现代 RNN 广泛兴趣的重大突破中，有一项是统计机器翻译应用领域的重大进展。在这里，模型以一种语言的句子呈现，并且必须预测另一种语言的相应句子。请注意，由于两种语言的语法结构不同，这里的句子可能有不同的长度，并且两个句子中相应的词可能不会以相同的顺序出现。

许多问题都具有这种在两个这样的“未对齐”序列之间进行映射的风格。示例包括从对话提示到回复或从问题到答案的映射。广义上，此类问题称为 序列到序列(seq2seq) 问题，它们是本章剩余部分和第 11 节大部分内容的重点。

在本节中，我们将介绍机器翻译问题和我们将在后续示例中使用的示例数据集。几十年来，语言间翻译的统计公式一直很流行（Brown等人，1990 年，Brown等人，1988 年），甚至在研究人员使神经网络方法起作用之前（这些方法通常被统称为神经机器翻译）。

首先，我们需要一些新代码来处理我们的数据。与我们在9.3 节中看到的语言建模不同，这里的每个示例都包含两个单独的文本序列，一个是源语言，另一个（翻译）是目标语言。以下代码片段将展示如何将预处理后的数据加载到小批量中进行训练。

						import os
import torch
from d2l import torch as d2l

						 

						import os
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

						import os
from jax import numpy as jnp
from d2l import jax as d2l

						 

						No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

					

						import os
import tensorflow as tf
from d2l import tensorflow as d2l

						 

10.5.1。下载和预处理数据集

首先，我们从 Tatoeba Project 下载由双语句子对组成的英法数据集。数据集中的每一行都是一个制表符分隔的对，由一个英文文本序列和翻译后的法文文本序列组成。请注意，每个文本序列可以只是一个句子，也可以是一段多句。在这个英语翻译成法语的机器翻译问题中，英语被称为源语言，法语被称为目标语言。

							class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])

							 

							Downloading ../data/fra-eng.zip from http://d2l-data.s3-accelerate.amazonaws.com/fra-eng.zip...
Go. Va !
Hi. Salut !
Run!    Cours !
Run!    Courez !
Who?    Qui ?
Wow!    Ça alors !

						

							class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])

							 

							Go. Va !
Hi. Salut !
Run!    Cours !
Run!    Courez !
Who?    Qui ?
Wow!    Ça alors !

						

							class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])

							 

							Go. Va !
Hi. Salut !
Run!    Cours !
Run!    Courez !
Who?    Qui ?
Wow!    Ça alors !

						

							class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])

							 

							Go. Va !
Hi. Salut !
Run!    Cours !
Run!    Courez !
Who?    Qui ?
Wow!    Ça alors !

						

下载数据集后，我们对原始文本数据进行几个预处理步骤。例如，我们将不间断空格替换为空格，将大写字母转换为小写字母，在单词和标点符号之间插入空格。

							@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])

							 

							go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ça alors !

						

							@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])

							 

							go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ça alors !

						

							@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])

							 

							go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ça alors !

						

							@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])

							 

							go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ça alors !

						

10.5.2。代币化

与第 9.3 节中的字符级标记化不同，对于机器翻译，我们在这里更喜欢单词级标记化（当今最先进的模型使用更复杂的标记化技术）。以下_tokenize方法对第一个max_examples文本序列对进行分词，其中每个分词要么是一个单词，要么是一个标点符号。我们将特殊的“”标记附加到每个序列的末尾，以指示序列的结束。当模型通过生成一个接一个标记的序列标记进行预测时，“”标记的生成表明输出序列是完整的。最后，下面的方法返回两个令牌列表列表：src和tgt。具体来说，src[i]是来自ith源语言（此处为英语）的文本序列和tgt[i]目标语言（此处为法语）的文本序列。

PyTorch教程10.5之机器翻译和数据集

10.5.1。下载和预处理数据集

10.5.2。代币化

PyTorch教程10.7之用于机器翻译的编码器-解码器Seq2Seq

PyTorch教程23.2之使用亚马逊SageMaker

PyTorch教程23.8之API

PyTorch教程3.3之综合回归数据

PyTorch教程4.1之Softmax回归

PyTorch教程3.6之概括

PyTorch教程4.2之图像分类数据集

PyTorch教程6.2之参数管理

PyTorch教程10.8之波束搜索

PyTorch教程12.2之凸度

PyTorch教程13.4之硬件

PyTorch教程13.3之自动并行

PyTorch教程13.2之异步计算

PyTorch教程14.2之微调

PyTorch教程14.1之图像增强

PyTorch教程6.7之显卡

PyTorch教程2.5之自动微分

PyTorch教程14.6之对象检测数据集

PyTorch教程14.9之语义分割和数据集

PyTorch教程15.9之预训练BERT的数据集

PyTorch教程16.4之自然语言推理和数据集

PyTorch教程16.1之情绪分析和数据集

PyTorch教程8.2之使用块的网络(VGG)

PyTorch教程9.2之将原始文本转换为序列数据

基于句子级上下文的神经机器翻译综述

基于DNN与规则学习的机器翻译算法综述

基于模板驱动的神经机器翻译模型综述

机器学习必学的Python代码示例集

基于短语的汉语维吾尔语机器翻译系统

SDN与机器学习和物联网相结合的一些知识说明

传音斩获WMT 2025国际机器翻译大赛四项冠军

PyTorch 数据加载与处理方法

PyTorch如何训练自己的数据集

基于机器翻译增加的跨语言机器阅读理解算法

仿真人类的微软AI翻译系统

人工智能会取代翻译吗

机器翻译研究进展

PyTorch教程-16.1. 情绪分析和数据集

PyTorch教程-10.7. 用于机器翻译的编码器-解码器 Seq2Seq

PyTorch教程-10.5。机器翻译和数据集

大语言模型的多语言机器翻译能力分析

借助机器翻译来生成伪视觉-目标语言对进行跨语言迁移

采用人工智能的器翻译系统

利用 Python 和 PyTorch 处理面向对象的数据集（2）) ：创建数据集对象

达摩院机器翻译技术让阿里巴巴在语音语义领域排名第二

如何突破传统语言服务行业瓶颈，用AI提高翻译效率与生产力？

机器翻译中细粒度领域自适应的数据集和基准实验

利用Python和PyTorch处理面向对象的数据集

Google遵循AI原则减少机器翻译的性别偏见

多语言翻译新范式的工作：机器翻译界的BERT

基于PyTorch的深度学习入门教程之PyTorch的安装和配置

未来机器翻译会取代人工翻译吗

人工智能翻译mRASP：可翻译32种语言

随着人工智能的发展，机器翻译将越来越智能化

Google翻译内核升级误差再降55%

机器翻译如何变得有道德

美国一学校发表一篇机器翻译算法论文报告 显示可解码神经活动并将其翻译为句子

关于机器翻译2.0的性能分析和介绍

MIT和谷歌开发失传语言的机器翻译系统

机器翻译走红的背后是什么

下载排行榜

人形机器人执行、感知系统技术及市场解析

瑞芯微RK3588系列开发板-产品资料更新-2026.06

OK3506-S12 Mini开发板产品资料-2025.10

ZS73XGaN 高性能 PWM+D-GaN 芯片数据手册

FS4054H 输入电压范围3.8V~6.8V 输入最大耐压28V 输入过压关闭充电阈值6.8V

LZC9300A 高性能恒压恒流碳化硅驱动控制芯片

美国一学校发表一篇机器翻译算法论文报告显示可解码神经活动并将其翻译为句子