PyTorch教程15.7之词的相似性和类比-电子发烧友网

在15.4 节中，我们在一个小数据集上训练了一个 word2vec 模型，并将其应用于为输入词寻找语义相似的词。在实践中，在大型语料库上预训练的词向量可以应用于下游的自然语言处理任务，这将在第 16 节后面介绍。为了以直接的方式展示来自大型语料库的预训练词向量的语义，让我们将它们应用到词相似度和类比任务中。

						import os
import torch
from torch import nn
from d2l import torch as d2l

						 

						import os
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

15.7.1。加载预训练词向量

下面列出了维度为 50、100 和 300 的预训练 GloVe 嵌入，可以从GloVe 网站下载。预训练的 fastText 嵌入有多种语言版本。这里我们考虑一个可以从fastText 网站下载的英文版本（300 维“wiki.en”）。

							#@save
d2l.DATA_HUB['glove.6b.50d'] = (d2l.DATA_URL + 'glove.6B.50d.zip',
                '0b8703943ccdb6eb788e6f091b8946e82231bc4d')

#@save
d2l.DATA_HUB['glove.6b.100d'] = (d2l.DATA_URL + 'glove.6B.100d.zip',
                 'cd43bfb07e44e6f27cbcc7bc9ae3d80284fdaf5a')

#@save
d2l.DATA_HUB['glove.42b.300d'] = (d2l.DATA_URL + 'glove.42B.300d.zip',
                 'b5116e234e9eb9076672cfeabf5469f3eec904fa')

#@save
d2l.DATA_HUB['wiki.en'] = (d2l.DATA_URL + 'wiki.en.zip',
              'c1816da3821ae9f43899be655002f6c723e91b88')

							 

							#@save
d2l.DATA_HUB['glove.6b.50d'] = (d2l.DATA_URL + 'glove.6B.50d.zip',
                '0b8703943ccdb6eb788e6f091b8946e82231bc4d')

#@save
d2l.DATA_HUB['glove.6b.100d'] = (d2l.DATA_URL + 'glove.6B.100d.zip',
                 'cd43bfb07e44e6f27cbcc7bc9ae3d80284fdaf5a')

#@save
d2l.DATA_HUB['glove.42b.300d'] = (d2l.DATA_URL + 'glove.42B.300d.zip',
                 'b5116e234e9eb9076672cfeabf5469f3eec904fa')

#@save
d2l.DATA_HUB['wiki.en'] = (d2l.DATA_URL + 'wiki.en.zip',
              'c1816da3821ae9f43899be655002f6c723e91b88')

							 

为了加载这些预训练的 GloVe 和 fastText 嵌入，我们定义了以下TokenEmbedding类。

							#@save
class TokenEmbedding:
  """Token Embedding."""
  def __init__(self, embedding_name):
    self.idx_to_token, self.idx_to_vec = self._load_embedding(
      embedding_name)
    self.unknown_idx = 0
    self.token_to_idx = {token: idx for idx, token in
               enumerate(self.idx_to_token)}

  def _load_embedding(self, embedding_name):
    idx_to_token, idx_to_vec = [''], []
    data_dir = d2l.download_extract(embedding_name)
    # GloVe website: https://nlp.stanford.edu/projects/glove/
    # fastText website: https://fasttext.cc/
    with open(os.path.join(data_dir, 'vec.txt'), 'r') as f:
      for line in f:
        elems = line.rstrip().split(' ')
        token, elems = elems[0], [float(elem) for elem in elems[1:]]
        # Skip header information, such as the top row in fastText
        if len(elems) > 1:
          idx_to_token.append(token)
          idx_to_vec.append(elems)
    idx_to_vec = [[0] * len(idx_to_vec[0])] + idx_to_vec
    return idx_to_token, torch.tensor(idx_to_vec)

  def __getitem__(self, tokens):
    indices = [self.token_to_idx.get(token, self.unknown_idx)
          for token in tokens]
    vecs = self.idx_to_vec[torch.tensor(indices)]
    return vecs

  def __len__(self):
    return len(self.idx_to_token)

							 

							#@save
class TokenEmbedding:
  """Token Embedding."""
  def __init__(self, embedding_name):
    self.idx_to_token, self.idx_to_vec = self._load_embedding(
      embedding_name)
    self.unknown_idx = 0
    self.token_to_idx = {token: idx for idx, token in
               enumerate(self.idx_to_token)}

  def _load_embedding(self, embedding_name):
    idx_to_token, idx_to_vec = [''], []
    data_dir = d2l.download_extract(embedding_name)
    # GloVe website: https://nlp.stanford.edu/projects/glove/
    # fastText website: https://fasttext.cc/
    with open(os.path.join(data_dir, 'vec.txt'), 'r') as f:
      for line in f:
        elems = line.rstrip().split(' ')
        token, elems = elems[0], [float(elem) for elem in elems[1:]]
        # Skip header information, such as the top row in fastText
        if len(elems) > 1:
          idx_to_token.append(token)
          idx_to_vec.append(elems)
    idx_to_vec = [[0] * len(idx_to_vec[0])] + idx_to_vec
    return idx_to_token, np.array(idx_to_vec)

  def __getitem__(self, tokens):
    indices = [self.token_to_idx.get(token, self.unknown_idx)
          for token in tokens]
    vecs = self.idx_to_vec[np.array(indices)]
    return vecs

  def __len__(self):
    return len(self.idx_to_token)

							 

下面我们加载 50 维 GloVe 嵌入（在维基百科子集上预训练）。创建TokenEmbedding实例时，如果尚未下载指定的嵌入文件，则必须下载。

							glove_6b50d = TokenEmbedding('glove.6b.50d')

							 

							Downloading ../data/glove.6B.50d.zip from http://d2l-data.s3-accelerate.amazonaws.com/glove.6B.50d.zip...

						

							glove_6b50d = TokenEmbedding('glove.6b.50d')

							 

							Downloading ../data/glove.6B.50d.zip from http://d2l-data.s3-accelerate.amazonaws.com/glove.6B.50d.zip...

						

输出词汇量。词汇表包含 400000 个单词（标记）和一个特殊的未知标记。

							len(glove_6b50d)

							 

							len(glove_6b50d)

							 

我们可以获得一个词在词汇表中的索引，反之亦然。

							glove_6b50d.token_to_idx['beautiful'], glove_6b50d.idx_to_token[3367]

							 

							(3367, 'beautiful')

						

							glove_6b50d.token_to_idx['beautiful'], glove_6b50d.idx_to_token[3367]

							 

							(3367, 'beautiful')

						

15.7.2。应用预训练词向量

使用加载的 GloVe 向量，我们将通过将它们应用于以下单词相似性和类比任务来演示它们的语义。

15.7.2.1。词相似度

与第 15.4.3 节类似，为了根据词向量之间的余弦相似度为输入词找到语义相似的词，我们实现以下knn （k-最近的邻居）功能。

								def knn(W, x, k):
  # Add 1e-9 for numerical stability
  cos = torch.mv(W, x.reshape(-1,)) / (
    torch.sqrt(torch.sum(W * W, axis=1) + 1e-9) *
    torch.sqrt((x * x).sum()))
  _, topk = torch.topk(cos, k=k)
  return topk, [cos[int(i)] for i in topk]

								 

								def knn(W, x, k):
  # Add 1e-9 for numerical stability
  cos = np.dot(W, x.reshape(-1,)) / (
    np.sqrt(np.sum(W * W, axis=1) + 1e-9) * np
							

PyTorch教程15.7之词的相似性和类比

15.7.1。加载预训练词向量

15.7.2。应用预训练词向量

15.7.2.1。词相似度

基于结构相似性可靠性监测结果

可编程IC的类型、主要功能、相似性和差异性

PyTorch Recipes.zip

Effective PyTorch之 PyTorch基础知识（译）

一种改进的局部和相似度保持特征选择算法

一种快速计算动态网络相似性的方法

一种三维形状的相似度度量方法

基于神经网络和代码相似度的漏洞检测

以运动方向为主导的移动对象轨迹相似度度量

基于时空分析的交通路口相似度计算方法

一种基于约束推导式的增强型相似性方法

命题逻辑公式间的Jaccard相似度等及其应用

时间序列的特征表示和相似性度量研究分析

基于节点多属性相似性聚类的社团划分算法SM-CD

一个类比解释反激式电源原理资料下载

针对协同过滤推荐算法的相似度计算方法

一种用于释义识别的句子相似度算法

一种改进的聚类联合相似度推荐算法

一种针对数据泄露的匿名模型GDPPR

一种节点拓扑紧密型指标及链路预测方法

github上的pytorch学习资料详细说明

如何使用会话时序相似性进行矩阵分解数据填充

如何使用三维矫正和相似性学习进行无约束人脸验证

耦合冲击滤波器的片相似性各向异性扩散模型

基于节点相似性社团结构划分

基于用户兴趣相似性的节点移动模型

一种通过张量积图扩散的医学图像检索

一种基于SQL的图相似性查询方法

基于分布式的时间序列局部相似性检测

一中余弦相似度的改进方法

PyTorch中激活函数的全面概览

TorchFix:基于PyTorch的代码静态分析

基于PyTorch AMD的解决方案

如何加速生成2 PyTorch扩散模型

使用PyTorch加速图像分割

pytorch用来干嘛的

英特尔加入PyTorch基金会，通过PyTorch*推动AI普及

深度学习框架pytorch介绍

深度学习框架pytorch入门与实践

那些年在pytorch上踩过的坑

PyTorch构建自己一种易用的计算图结构

苹果iOS15.7正式版的升级方法

PyTorch 的 Autograd 机制和使用

利用GPU和深度学习算法加速十亿向量相似性搜索

CS556X/7X/8X与SAR转换器的相似性和比较

基于PyTorch的深度学习入门教程之PyTorch的自动梯度计算

基于PyTorch的深度学习入门教程之PyTorch简单知识

基于PyTorch的深度学习入门教程之PyTorch重点综合实践

基于PyTorch的深度学习入门教程之使用PyTorch构建一个神经网络

一篇非常新的介绍PyTorch内部机制的文章

使用PyTorch提取CNNs图像特征

评价Python字符串相似度的六种度量方法

用于学习图结构对象相似性的图匹配网络

一文解构PyTorch：深入了解PyTorch内部机制

什么是张量，如何在PyTorch中操作张量?

如何基于Tf-Idf词向量和余弦相似性根据字幕文件找出相似的TED演讲

关于Nodejs中最关键也是最难的异步编程做一些介绍和讲解

各国优先发展的能源技术分析并比较相似性和差异度

摩托罗拉:TD-SCDMA的后续演进技术TD-LTE与WiMAX有相似性

Pytorch入门教程与范例

下载排行榜

STM32国内外发展现状

传感芯片选型指南

储能电源市场分析

TDK电容器产品指南

ATmega8芯片中文手册

2A多电池高效开关充电器AN_SY6912A中文资料规格书