PyTorch教程16.7之自然语言推理：微调BERT-电子发烧友网

在本章前面的部分中，我们为 SNLI 数据集上的自然语言推理任务（如第 16.4 节所述）设计了一个基于注意力的架构（第16.5节）。现在我们通过微调 BERT 重新审视这个任务。正如16.6 节所讨论的，自然语言推理是一个序列级文本对分类问题，微调 BERT 只需要一个额外的基于 MLP 的架构，如图 16.7.1所示。

https://file.elecfans.com/web2/M00/A9/CD/poYBAGR9POGANyPIAAKGzmOF458734.svg

图 16.7.1本节将预训练的 BERT 提供给基于 MLP 的自然语言推理架构。

在本节中，我们将下载预训练的小型 BERT 版本，然后对其进行微调以在 SNLI 数据集上进行自然语言推理。

						import json
import multiprocessing
import os
import torch
from torch import nn
from d2l import torch as d2l

						 

						import json
import multiprocessing
import os
from mxnet import gluon, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

						 

16.7.1。加载预训练的 BERT

我们已经在第 15.9 节和第 15.10 节中解释了如何在 WikiText-2 数据集上预训练 BERT （请注意，原始 BERT 模型是在更大的语料库上预训练的）。如15.10 节所述，原始 BERT 模型有数亿个参数。在下文中，我们提供了两个版本的预训练 BERT：“bert.base”与需要大量计算资源进行微调的原始 BERT 基础模型差不多大，而“bert.small”是一个小版本方便演示。

							d2l.DATA_HUB['bert.base'] = (d2l.DATA_URL + 'bert.base.torch.zip',
               '225d66f04cae318b841a13d32af3acc165f253ac')
d2l.DATA_HUB['bert.small'] = (d2l.DATA_URL + 'bert.small.torch.zip',
               'c72329e68a732bef0452e4b96a1c341c8910f81f')

							 

							d2l.DATA_HUB['bert.base'] = (d2l.DATA_URL + 'bert.base.zip',
               '7b3820b35da691042e5d34c0971ac3edbd80d3f4')
d2l.DATA_HUB['bert.small'] = (d2l.DATA_URL + 'bert.small.zip',
               'a4e718a47137ccd1809c9107ab4f5edd317bae2c')

							 

预训练的 BERT 模型都包含一个定义词汇集的“vocab.json”文件和一个预训练参数的“pretrained.params”文件。我们实现以下load_pretrained_model 函数来加载预训练的 BERT 参数。

							def load_pretrained_model(pretrained_model, num_hiddens, ffn_num_hiddens,
             num_heads, num_blks, dropout, max_len, devices):
  data_dir = d2l.download_extract(pretrained_model)
  # Define an empty vocabulary to load the predefined vocabulary
  vocab = d2l.Vocab()
  vocab.idx_to_token = json.load(open(os.path.join(data_dir, 'vocab.json')))
  vocab.token_to_idx = {token: idx for idx, token in enumerate(
    vocab.idx_to_token)}
  bert = d2l.BERTModel(
    len(vocab), num_hiddens, ffn_num_hiddens=ffn_num_hiddens, num_heads=4,
    num_blks=2, dropout=0.2, max_len=max_len)
  # Load pretrained BERT parameters
  bert.load_state_dict(torch.load(os.path.join(data_dir,
                         'pretrained.params')))
  return bert, vocab

							 

							def load_pretrained_model(pretrained_model, num_hiddens, ffn_num_hiddens,
             num_heads, num_blks, dropout, max_len, devices):
  data_dir = d2l.download_extract(pretrained_model)
  # Define an empty vocabulary to load the predefined vocabulary
  vocab = d2l.Vocab()
  vocab.idx_to_token = json.load(open(os.path.join(data_dir, 'vocab.json')))
  vocab.token_to_idx = {token: idx for idx, token in enumerate(
    vocab.idx_to_token)}
  bert = d2l.BERTModel(len(vocab), num_hiddens, ffn_num_hiddens, num_heads,
             num_blks, dropout, max_len)
  # Load pretrained BERT parameters
  bert.load_parameters(os.path.join(data_dir, 'pretrained.params'),
             ctx=devices)
  return bert, vocab

							 

为了便于在大多数机器上进行演示，我们将在本节中加载和微调预训练 BERT 的小型版本（“bert.small”）。在练习中，我们将展示如何微调更大的“bert.base”以显着提高测试准确性。

							devices = d2l.try_all_gpus()
bert, vocab = load_pretrained_model(
  'bert.small', num_hiddens=256, ffn_num_hiddens=512, num_heads=4,
  num_blks=2, dropout=0.1, max_len=512, devices=devices)

							 

							Downloading ../data/bert.small.torch.zip from http://d2l-data.s3-accelerate.amazonaws.com/bert.small.torch.zip...

						

							devices = d2l.try_all_gpus()
bert, vocab = load_pretrained_model(
  'bert.small', num_hiddens=256, ffn_num_hiddens=512, num_heads=4,
  num_blks=2, dropout=0.1, max_len=512, devices=devices)

							 

							Downloading ../data/bert.small.zip from http://d2l-data.s3-accelerate.amazonaws.com/bert.small.zip...

						

16.7.2。微调 BERT 的数据集

对于 SNLI 数据集上的下游任务自然语言推理，我们定义了一个自定义的数据集类SNLIBERTDataset。在每个示例中，前提和假设形成一对文本序列，并被打包到一个 BERT 输入序列中，如图 16.6.2所示。回想第 15.8.4 节，段 ID 用于区分 BERT 输入序列中的前提和假设。对于 BERT 输入序列 ( max_len) 的预定义最大长度，输入文本对中较长者的最后一个标记会不断被删除，直到max_len满足为止。为了加速生成用于微调 BERT 的 SNLI 数据集，我们使用 4 个工作进程并行生成训练或测试示例。

							class SNLIBERTDataset(torch.utils.data.Dataset):
  def __init__(self, dataset, max_len, vocab=None):
    all_premise_hypothesis_tokens = [[
      p_tokens, h_tokens] for p_tokens, h_tokens in zip(
      *[d2l.tokenize([s.lower() for s in sentences])
       for sentences in dataset[:2]])]

    self.labels = torch.tensor(dataset[2])
    self.vocab = vocab
    self.max_len = max_len
    (self.all_token_ids, self.all_segments,
     self.valid_lens) = self._preprocess(all_premise_hypothesis_tokens)
    print('read ' + str(len(self.all_token_ids)) + ' examples')

  def _preprocess(self, all_premise_hypothesis_tokens):
    pool = multiprocessing.Pool(4) # Use 4 worker processes
    out = pool.map(self._mp_worker, all_premise_hypothesis_tokens)
    all_token_ids = [
      token_ids for token_ids, segments, valid_len in out]
    all_segments = [segments for token_ids, segments, valid_len in out]
    valid_lens = [valid_len for token_ids, segments, valid_len in out]
    return (torch.tensor(all_token_ids, dtype=torch.long),
        torch.tensor(all_segments, dtype=torch.long),
        torch.tensor(valid_lens))

  def _mp_worker(self, premise_hypothesis_tokens):
    p_tokens, h_tokens = premise_hypothesis_tokens
    self._truncate_pair_of_tokens(p_tokens, h_tokens)
    tokens, segments = d2l.get_tokens_and_segments(p_tokens, h_tokens)
    token_ids = self.vocab[tokens] + [self.vocab['']] \
               * (self.max_len - len(tokens))
    segments = segments + [0] * (self.max_len - len(segments))
    valid_len = len(tokens)
    return token_ids, segments, valid_len

  def _truncate_pair_of_tokens(self, p_tokens, h_tokens):
    # Reserve slots for '', '', and '' tokens for the BERT
    # input
    while len(p_tokens) + len(h_tokens) > self.max_len - 3:
      if len(p_tokens) > len(h_tokens):
        p_tokens.pop()
      else:
        h_tokens.pop()

  def __getitem__(self, idx):
    return (self.all_token_ids[idx], self.all_segments[idx],
        self.valid_lens[idx]), self.labels[idx]

  def __len__(self):
    return len(self.all_token_ids)

							 

							class SNLIBERTDataset(gluon.data.Dataset):
  def __init__(self, dataset, max_len, vocab=None):
    all_premise_hypothesis_tokens = [[
      p_tokens, h_tokens
						

PyTorch教程16.7之自然语言推理：微调BERT

16.7.1。加载预训练的 BERT

16.7.2。微调 BERT 的数据集

硬件加速自然语言理解解决方案

PyTorch教程23.2之使用亚马逊SageMaker

PyTorch教程23.8之API

PyTorch教程4.1之Softmax回归

PyTorch教程3.6之概括

PyTorch教程6.2之参数管理

PyTorch教程10.8之波束搜索

PyTorch教程12.2之凸度

PyTorch教程13.4之硬件

PyTorch教程13.3之自动并行

PyTorch教程13.2之异步计算

PyTorch教程14.2之微调

PyTorch教程6.7之显卡

PyTorch教程2.5之自动微分

PyTorch教程15.9之预训练BERT的数据集

PyTorch教程16.4之自然语言推理和数据集

PyTorch教程15.10之预训练BERT

PyTorch教程16.6之针对序列级和令牌级应用程序微调BERT

PyTorch教程16.5之自然语言推理：使用注意力

PyTorch教程18.3之高斯过程推理

PyTorch教程8.2之使用块的网络(VGG)

PyTorch教程9.3.之语言模型

自然语言处理在社会传播的应用综述

基于自然语言功能描述的代码查询方法

基于BERT的中文科技NLP预训练模型

基于深度学习的自然语言处理对抗样本模型

基于自然语言生成多表SQL语句模板填充的方法

基于计算机视觉和NLP的跨媒体问答与推理

一种注意力增强的自然语言推理模型aESIM

自然语言处理的图像文本建模相关研究及分析

自然语言处理与机器学习的关系 自然语言处理的基本概念及步骤

ASR与自然语言处理的结合

自然语言处理与机器学习的区别

用于自然语言处理的神经网络有哪些

自然语言处理技术有哪些

自然语言处理模式的优点

自然语言处理是什么技术的一种应用

自然语言处理包括哪些内容

自然语言处理技术的原理的应用

神经网络在自然语言处理中的应用

ChatGPT是一个好的因果推理器吗？

自然语言处理和人工智能的概念及发展史 自然语言处理和人工智能的区别

自然语言处理的概念和应用 自然语言处理属于人工智能吗

亚马逊云科技结合大语言模型和自然语言问答，加速的数据决策

自然语言处理包括哪些内容 自然语言处理技术包括哪些

PyTorch教程-16.7。自然语言推理：微调 BERT

PyTorch教程-16.4。自然语言推理和数据集

PyTorch教程-16.5。自然语言推理：使用注意力

PyTorch教程-16.6. 针对序列级和令牌级应用程序微调 BERT

自然语言入门之ESIM

NLP入门之Bert的前世今生

如何开始使用PyTorch进行自然语言处理

自然语言分析(NLA)是什么

如何使用TensorRT 8.0进行实时自然语言处理

自然语言处理BERT中CLS的效果如何？

自然语言处理是什么？有什么用？

自然语言处理（NLP）的学习方向

自然语言处理的发展简史

多个视角对自然语言处理领域进行全面梳理

AAAI 2019 Gaussian Transformer 一种自然语言推理方法

下载排行榜

PC5502负载均流控制电路数据手册

飞利浦D8714收录机说明书

RK3506B原理图参考设计

H110主板CPU PWM芯片ISL95858HRZ-T核心供电电路图资料

人工智能+消费：技术赋能与芯片驱动未来

⼯业电源&模块电源产品⼿册

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤

自然语言处理和人工智能的概念及发展史自然语言处理和人工智能的区别

自然语言处理的概念和应用自然语言处理属于人工智能吗

自然语言处理包括哪些内容自然语言处理技术包括哪些