×

PyTorch教程之数据预处理

消耗积分:0 | 格式:pdf | 大小:0.14 MB | 2023-06-02

分享资料个

到目前为止,我们一直在处理以现成张量形式到达的合成数据。然而,要在野外应用深度学习,我们必须提取以任意格式存储的杂乱数据,并对其进行预处理以满足我们的需要。幸运的是,pandas 可以完成大部分繁重的工作。本节虽然不能替代适当的pandas 教程,但将为您提供一些最常见例程的速成课程。

2.2.1. 读取数据集

逗号分隔值 (CSV) 文件普遍用于存储表格(类似电子表格)数据。此处,每一行对应一个记录并由多个(逗号分隔)字段组成,例如,“Albert Einstein,March 14 1879,Ulm,Federal polytechnic school,Accomplishments in the field of gravitational physics”。为了演示如何加载 CSV 文件pandas,我们在下面创建了一个 CSV 文件 ../data/house_tiny.csv此文件表示房屋数据集,其中每一行对应一个不同的房屋,列对应房间数 ( NumRooms)、屋顶类型 ( RoofType) 和价格 ( Price)。

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
  f.write('''NumRooms,RoofType,Price
NA,NA,127500
2,NA,106000
4,Slate,178100
NA,NA,140000''')

现在让我们导入pandas并加载数据集read_csv

import pandas as pd

data = pd.read_csv(data_file)
print(data)
  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000
import pandas as pd

data = pd.read_csv(data_file)
print(data)
  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000
import pandas as pd

data = pd.read_csv(data_file)
print(data)
  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000
import pandas as pd

data = pd.read_csv(data_file)
print(data)
  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

2.2.2. 数据准备

在监督学习中,我们训练模型在给定一组输入值的情况下预测指定的目标值我们处理数据集的第一步是分离出对应于输入值和目标值的列。我们可以按名称或通过基于整数位置的索引 ( ) 选择列iloc

您可能已经注意到,pandas将所有 CSV 条目替换NA为一个特殊的NaN不是数字)值。这也可能在条目为空时发生,例如“3,,,270000”。这些被称为缺失值,它们是数据科学的“臭虫”,是您在整个职业生涯中都会遇到的持续威胁。根据上下文,缺失值可以通过 插补删除来处理。插补用缺失值的估计值替换缺失值,而删除只是丢弃那些包含缺失值的行或列。

以下是一些常见的插补启发法。对于分类输入字段,我们可以将其视为NaN一个类别。由于该RoofType 列采用值SlateNaNpandas可以将此列转换为两列RoofType_SlateRoofType_nan屋顶类型为的行将分别将Slate的值设置为 1 和 0。相反的情况适用于具有缺失值的行RoofType_SlateRoofType_nanRoofType

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

对于缺失的数值,一种常见的启发式方法是用 NaN相应列的平均值替换条目。

inputs = inputs.fillna(inputs.mean())
print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1
inputs = inputs.fillna(inputs.mean())
print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1
inputs = inputs.fillna(inputs.mean())
print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1
inputs = inputs.fillna(inputs.mean())
print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

2.2.3. 转换为张量格式

inputs现在 和中的所有条目targets都是数字,我们可以将它们加载到张量中(回忆一下2.1 节)。

import torch

X, y = torch.tensor(inputs.values), torch.tensor(targets.values)
X, y
(tensor([[3., 0., 1.],
     [2., 0., 1.],
     [4., 1., 0.],
     [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))
from mxnet import np

X, y = np.array(inputs.values), np.array(targets.values)
X, y
(array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]], dtype=float64),
 array([127500, 106000, 178100, 140000], dtype=int64))

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !