PyTorch教程-2.2.数据预处理

姬房有 2023-06-02 1346

电子说

1.4w人已加入

描述

到目前为止，我们一直在处理以现成张量形式到达的合成数据。然而，要在野外应用深度学习，我们必须提取以任意格式存储的杂乱数据，并对其进行预处理以满足我们的需要。幸运的是，pandas 库可以完成大部分繁重的工作。本节虽然不能替代适当的pandas 教程，但将为您提供一些最常见例程的速成课程。

2.2.1. 读取数据集

逗号分隔值 (CSV) 文件普遍用于存储表格（类似电子表格）数据。此处，每一行对应一个记录并由多个（逗号分隔）字段组成，例如，“Albert Einstein,March 14 1879,Ulm,Federal polytechnic school,Accomplishments in the field of gravitational physics”。为了演示如何加载 CSV 文件pandas，我们在下面创建了一个 CSV 文件 ../data/house_tiny.csv。此文件表示房屋数据集，其中每一行对应一个不同的房屋，列对应房间数 ( NumRooms)、屋顶类型 ( RoofType) 和价格 ( Price)。

import os os.makedirs(os.path.join('..', 'data'), exist_ok=True) data_file = os.path.join('..', 'data', 'house_tiny.csv') with open(data_file, 'w') as f: f.write('''NumRooms,RoofType,Price NA,NA,127500 2,NA,106000 4,Slate,178100 NA,NA,140000''')

现在让我们导入pandas并加载数据集read_csv。

import pandas as pd data = pd.read_csv(data_file) print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

import pandas as pd data = pd.read_csv(data_file) print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

import pandas as pd data = pd.read_csv(data_file) print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

import pandas as pd data = pd.read_csv(data_file) print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

2.2.2. 数据准备

在监督学习中，我们训练模型在给定一组输入值的情况下预测指定的目标值。我们处理数据集的第一步是分离出对应于输入值和目标值的列。我们可以按名称或通过基于整数位置的索引 ( ) 选择列。iloc

您可能已经注意到，pandas将所有 CSV 条目替换NA为一个特殊的NaN（不是数字）值。这也可能在条目为空时发生，例如“3,,,270000”。这些被称为缺失值，它们是数据科学的“臭虫”，是您在整个职业生涯中都会遇到的持续威胁。根据上下文，缺失值可以通过插补或删除来处理。插补用缺失值的估计值替换缺失值，而删除只是丢弃那些包含缺失值的行或列。

以下是一些常见的插补启发法。对于分类输入字段，我们可以将其视为NaN一个类别。由于该RoofType 列采用值Slate和NaN，pandas可以将此列转换为两列RoofType_Slate和RoofType_nan。屋顶类型为的行将分别将和 Slate的值设置为 1 和 0。相反的情况适用于具有缺失值的行。RoofType_SlateRoofType_nanRoofType

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

对于缺失的数值，一种常见的启发式方法是用 NaN相应列的平均值替换条目。

inputs = inputs.fillna(inputs.mean()) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

inputs = inputs.fillna(inputs.mean()) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

inputs = inputs.fillna(inputs.mean()) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

inputs = inputs.fillna(inputs.mean()) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

2.2.3. 转换为张量格式

inputs现在和中的所有条目targets都是数字，我们可以将它们加载到张量中（回忆一下2.1 节）。

import torch X, y = torch.tensor(inputs.values), torch.tensor(targets.values) X, y

(tensor([[3., 0., 1.],
     [2., 0., 1.],
     [4., 1., 0.],
     [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

from mxnet import np X, y = np.array(inputs.values), np.array(targets.values) X, y

(array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]], dtype=float64),
 array([127500, 106000, 178100, 140000], dtype=int64))

from jax import numpy as jnp X, y = jnp.array(inputs.values), jnp.array(targets.values) X, y

No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

(Array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]], dtype=float32),
 Array([127500, 106000, 178100, 140000], dtype=int32))

import tensorflow as tf X, y = tf.constant(inputs.values), tf.constant(targets.values) X, y

(<tf.Tensor: shape=(4, 3), dtype=float64, numpy=
 array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]])>,
 <tf.Tensor: shape=(4,), dtype=int64, numpy=array([127500, 106000, 178100, 140000])>)

2.2.4. 讨论

您现在知道如何对数据列进行分区、估算缺失变量以及将pandas数据加载到张量中。在第 5.7 节中，您将掌握更多数据处理技能。虽然这个速成课程让事情变得简单，但数据处理可能会变得棘手。例如，我们的数据集可能分布在从关系数据库中提取的多个文件中，而不是到达单个 CSV 文件。例如，在电子商务应用程序中，客户地址可能存在于一个表中，而购买数据则存在于另一个表中。此外，从业者还面临着分类和数字以外的无数数据类型。其他数据类型包括文本字符串、图像、音频数据和点云。通常，需要先进的工具和高效的算法来防止数据处理成为机器学习管道中的最大瓶颈。当我们涉及计算机视觉和自然语言处理时，就会出现这些问题。最后，我们必须关注数据质量。现实世界的数据集经常受到异常值、传感器错误测量和记录错误的困扰，在将数据输入任何模型之前必须解决这些问题。数据可视化工具，例如 seaborn、 Bokeh或 matplotlib可以帮助您手动检查数据并形成关于您可能需要解决的问题的直觉。

2.2.5. 练习

尝试从UCI 机器学习存储库加载数据集，例如 Abalone并检查它们的属性。其中有多少缺失值？变量的哪一部分是数字的、分类的或文本的？
尝试按名称而不是按列号索引和选择数据列。有关索引的 Pandas 文档包含有关如何执行此操作的更多详细信息。
您认为您可以通过这种方式加载多大的数据集？可能有什么限制？提示：考虑读取数据的时间、表示、处理和内存占用。在笔记本电脑上试试这个。如果您在服务器上试用它会发生什么变化？
您将如何处理具有大量类别的数据？如果类别标签都是唯一的怎么办？你应该包括后者吗？
你能想到什么 pandas 的替代品？如何从文件加载 NumPy 张量？查看Pillow，Python 图像库。

　　审核编辑：汤梓红

打开APP阅读更多精彩内容