PyTorch教程16.1之情绪分析和数据集-电子发烧友网

随着在线社交媒体和评论平台的激增，大量的意见数据被记录下来，具有支持决策过程的巨大潜力。情感分析研究人们在其生成的文本中的情感，例如产品评论、博客评论和论坛讨论。它在政治（例如，公众对政策的情绪分析）、金融（例如，市场情绪分析）和市场营销（例如，产品研究和品牌管理）等领域有着广泛的应用。

由于情绪可以被分类为离散的极性或尺度（例如，积极和消极），我们可以将情绪分析视为文本分类任务，它将可变长度的文本序列转换为固定长度的文本类别。在本章中，我们将使用斯坦福的大型电影评论数据集进行情感分析。它由一个训练集和一个测试集组成，其中包含从 IMDb 下载的 25000 条电影评论。在这两个数据集中，“正面”和“负面”标签的数量相等，表明不同的情绪极性。

						import os
import torch
from torch import nn
from d2l import torch as d2l

						 

						import os
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

16.1.1。读取数据集

首先，在路径中下载并解压这个 IMDb 评论数据集 ../data/aclImdb。

							#@save
d2l.DATA_HUB['aclImdb'] = (d2l.DATA_URL + 'aclImdb_v1.tar.gz',
             '01ada507287d82875905620988597833ad4e0903')

data_dir = d2l.download_extract('aclImdb', 'aclImdb')

							Downloading ../data/aclImdb_v1.tar.gz from http://d2l-data.s3-accelerate.amazonaws.com/aclImdb_v1.tar.gz...

						

							#@save
d2l.DATA_HUB['aclImdb'] = (d2l.DATA_URL + 'aclImdb_v1.tar.gz',
             '01ada507287d82875905620988597833ad4e0903')

data_dir = d2l.download_extract('aclImdb', 'aclImdb')

							Downloading ../data/aclImdb_v1.tar.gz from http://d2l-data.s3-accelerate.amazonaws.com/aclImdb_v1.tar.gz...

						

接下来，阅读训练和测试数据集。每个示例都是评论及其标签：1 表示“正面”，0 表示“负面”。

							#@save
def read_imdb(data_dir, is_train):
  """Read the IMDb review dataset text sequences and labels."""
  data, labels = [], []
  for label in ('pos', 'neg'):
    folder_name = os.path.join(data_dir, 'train' if is_train else 'test',
                  label)
    for file in os.listdir(folder_name):
      with open(os.path.join(folder_name, file), 'rb') as f:
        review = f.read().decode('utf-8').replace('\n', '')
        data.append(review)
        labels.append(1 if label == 'pos' else 0)
  return data, labels

train_data = read_imdb(data_dir, is_train=True)
print('# trainings:', len(train_data[0]))
for x, y in zip(train_data[0][:3], train_data[1][:3]):
  print('label:', y, 'review:', x[:60])

							 

							# trainings: 25000
label: 1 review: Henry Hathaway was daring, as well as enthusiastic, for his
label: 1 review: An unassuming, subtle and lean film, "The Man in the White S
label: 1 review: Eddie Murphy really made me laugh my ass off on this HBO sta

						

							#@save
def read_imdb(data_dir, is_train):
  """Read the IMDb review dataset text sequences and labels."""
  data, labels = [], []
  for label in ('pos', 'neg'):
    folder_name = os.path.join(data_dir, 'train' if is_train else 'test',
                  label)
    for file in os.listdir(folder_name):
      with open(os.path.join(folder_name, file), 'rb') as f:
        review = f.read().decode('utf-8').replace('\n', '')
        data.append(review)
        labels.append(1 if label == 'pos' else 0)
  return data, labels

train_data = read_imdb(data_dir, is_train=True)
print('# trainings:', len(train_data[0]))
for x, y in zip(train_data[0][:3], train_data[1][:3]):
  print('label:', y, 'review:', x[:60])

							 

							# trainings: 25000
label: 1 review: Henry Hathaway was daring, as well as enthusiastic, for his
label: 1 review: An unassuming, subtle and lean film, "The Man in the White S
label: 1 review: Eddie Murphy really made me laugh my ass off on this HBO sta

						

16.1.2。预处理数据集

将每个单词视为一个标记并过滤掉出现次数少于 5 次的单词，我们从训练数据集中创建了一个词汇表。

							train_tokens = d2l.tokenize(train_data[0], token='word')
vocab = d2l.Vocab(train_tokens, min_freq=5, reserved_tokens=[''])

							train_tokens = d2l.tokenize(train_data[0], token='word')
vocab = d2l.Vocab(train_tokens, min_freq=5, reserved_tokens=[''])

标记化后，让我们绘制以标记为单位的评论长度直方图。

							d2l.set_figsize()
d2l.plt.xlabel('# tokens per review')
d2l.plt.ylabel('count')
d2l.plt.hist([len(line) for line in train_tokens], bins=range(0, 1000, 50));

							 

https://file.elecfans.com/web2/M00/AA/48/pYYBAGR9PJGAVpMAAADxspcG71s604.svg

							d2l.set_figsize()
d2l.plt.xlabel('# tokens per review')
d2l.plt.ylabel('count')
d2l.plt.hist([len(line) for line in train_tokens], bins=range(0, 1000, 50));

							 

正如我们所料，评论的长度各不相同。为了每次处理一小批此类评论，我们将每个评论的长度设置为 500，并进行截断和填充，这类似于第 10.5 节中机器翻译数据集的预处理步骤。

							num_steps = 500 # sequence length
train_features = torch.tensor([d2l.truncate_pad(
  vocab[line], num_steps, vocab['']) for line in train_tokens])
print(train_features.shape)

							 

							torch.Size([25000, 500])

						

							num_steps = 500 # sequence length
train_features = np.array([d2l.truncate_pad(
  vocab[line], num_steps, vocab['']) for line in train_tokens])
print(train_features.shape)

							 

							(25000, 500)

						

16.1.3。创建数据迭代器

现在我们可以创建数据迭代器。在每次迭代中，返回一小批示例。

							train_iter = d2l.load_array((train_features, torch.tensor(train_data[1])), 64)

for X, y in train_iter:
  print('X:', X.shape, ', y:', y.shape)
  break
print('# batches:', len(train_iter))

							 

							X: torch.Size([64, 500]) , y: torch.Size([64])
# batches: 391

							train_iter = d2l.load_array((train_features, train_data[1]), 64)

for X, y in train_iter:
  print('X:', X.shape, ', y:', y.shape)
  break
print('# batches:', len(train_iter))

							 

							X: (64, 500) , y: (64,)
# batches: 391

PyTorch教程16.1之情绪分析和数据集

16.1.1。读取数据集

16.1.2。预处理数据集

16.1.3。创建数据迭代器

网络爬虫,Python和数据分析

PyTorch教程3.3之综合回归数据

PyTorch教程4.2之图像分类数据集

PyTorch教程10.5之机器翻译和数据集

PyTorch教程14.6之对象检测数据集

PyTorch教程14.9之语义分割和数据集

PyTorch教程15.9之预训练BERT的数据集

PyTorch教程16.4之自然语言推理和数据集

PyTorch教程16.3之情感分析:使用卷积神经网络

PyTorch教程16.2之情感分析:使用递归神经网络

PyTorch教程之数据预处理

PyTorch Recipes.zip

USB 3.0集线器控制器GL3520-21数据手册

基于不均衡医学数据集的疾病预测模型

基于ARM的温室环境控制系统和数据采集方案

基于数据组和数据中心划分的数据放置算法

人群紧急状况下的多智能体情绪感染仿真模型

用于实现AI、大数据、和数据科学的十大类算法资料下载

LabVIEW用于测量和数据的分析

知识系统中的全粒度粗糙集及概念漂移相关研究分析

关于案件微博评论的情绪知识库和相关研究

电子CAD原理图绘制题目集

YaleBCrop025数据集免费下载

github上的pytorch学习资料详细说明

使用DS1302和数码管设计可调电子钟的数据手册免费下载

数据和数据运算与数据库基本操作的俩个实验说明

使用神经网络进行微博情绪识别与诱因抽取联合模型的说明

Python网页爬虫，文本处理，科学计算，机器学习和数据挖掘工具集

TGA4513平衡功率放大器的应用和数据手册免费下载

TMS320C28XDSPcpu和指令集参考指南

PyTorch 数据加载与处理方法

如何在 PyTorch 中训练模型

pytorch如何训练自己的数据

PyTorch如何训练自己的数据集

PyTorch与PyCharm的区别

TorchFix:基于PyTorch的代码静态分析

深度学习框架pytorch介绍

使用 RAPIDS RAFT 进行机器学习和数据分析的可重用计算模式

PyTorch教程-16.4。自然语言推理和数据集

PyTorch教程-16.1. 情绪分析和数据集

PyTorch教程-15.9。预训练 BERT 的数据集

PyTorch教程-14.9. 语义分割和数据集

PyTorch教程-14.6. 对象检测数据集

PyTorch教程-10.5。机器翻译和数据集

PyTorch教程-4.2. 图像分类数据集

如何利用Dataloder来处理加载数据集

PLC程序分析和数据下发测试教程

利用 Python 和 PyTorch 处理面向对象的数据集（2）) ：创建数据集对象

利用Python和PyTorch处理面向对象的数据集（1）

自然语言处理之情感分析

PyTorch显存机制分析

利用Python和PyTorch处理面向对象的数据集

基于PyTorch的深度学习入门教程之PyTorch的自动梯度计算

基于PyTorch的深度学习入门教程之PyTorch简单知识

数据科学家和数据工程师能合二为一吗？

利用物联网和数据分析

面部识别能对大家的情绪进行数据和情感分析 我们的秘密或将藏不住了

大数据工程师和数据分析师的区别在哪里

大数据和数据分析区别

基于区块链情绪分析平台Senno介绍

下载排行榜

A7159和A7139射频芯片的资料免费下载

DeepSeek:从入门到精通

零死角玩转STM32F103—指南者

PIC12F629/675 数据手册免费下载

PIC16F716 数据手册免费下载

dsPIC33EDV64MC205电机控制开发板用户指南

面部识别能对大家的情绪进行数据和情感分析我们的秘密或将藏不住了