到目前为止,我们一直在处理以现成张量形式到达的合成数据。然而,要在野外应用深度学习,我们必须提取以任意格式存储的杂乱数据,并对其进行预处理以满足我们的需要。幸运的是,pandas 库可以完成大部分繁重的工作。本节虽然不能替代适当的pandas 教程,但将为您提供一些最常见例程的速成课程。
2.2.1. 读取数据集
逗号分隔值 (CSV) 文件普遍用于存储表格(类似电子表格)数据。此处,每一行对应一个记录并由多个(逗号分隔)字段组成,例如,“Albert Einstein,March 14 1879,Ulm,Federal polytechnic school,Accomplishments in the field of gravitational physics”。为了演示如何加载 CSV 文件pandas
,我们在下面创建了一个 CSV 文件 ../data/house_tiny.csv
。此文件表示房屋数据集,其中每一行对应一个不同的房屋,列对应房间数 ( NumRooms
)、屋顶类型 ( RoofType
) 和价格 ( Price
)。
现在让我们导入pandas
并加载数据集read_csv
。
NumRooms RoofType Price
0 NaN NaN 127500
1 2.0 NaN 106000
2 4.0 Slate 178100
3 NaN NaN 140000
NumRooms RoofType Price
0 NaN NaN 127500
1 2.0 NaN 106000
2 4.0 Slate 178100
3 NaN NaN 140000
NumRooms RoofType Price
0 NaN NaN 127500
1 2.0 NaN 106000
2 4.0 Slate 178100
3 NaN NaN 140000
2.2.2. 数据准备
在监督学习中,我们训练模型在给定一组输入值的情况下预测指定的目标值。我们处理数据集的第一步是分离出对应于输入值和目标值的列。我们可以按名称或通过基于整数位置的索引 ( ) 选择列。iloc
您可能已经注意到,pandas
将所有 CSV 条目替换NA
为一个特殊的NaN
(不是数字)值。这也可能在条目为空时发生,例如“3,,,270000”。这些被称为缺失值,它们是数据科学的“臭虫”,是您在整个职业生涯中都会遇到的持续威胁。根据上下文,缺失值可以通过 插补或删除来处理。插补用缺失值的估计值替换缺失值,而删除只是丢弃那些包含缺失值的行或列。
以下是一些常见的插补启发法。对于分类输入字段,我们可以将其视为NaN
一个类别。由于该RoofType
列采用值Slate
和NaN
,pandas
可以将此列转换为两列RoofType_Slate
和RoofType_nan
。屋顶类型为的行将分别将和 Slate
的值设置为 1 和 0。相反的情况适用于具有缺失值的行。RoofType_Slate
RoofType_nan
RoofType
NumRooms RoofType_Slate RoofType_nan
0 NaN 0 1
1 2.0 0 1
2 4.0 1 0
3 NaN 0 1
NumRooms RoofType_Slate RoofType_nan
0 NaN 0 1
1 2.0 0 1
2 4.0 1 0
3 NaN 0 1
NumRooms RoofType_Slate RoofType_nan
0 NaN 0 1
1 2.0 0 1
2 4.0 1 0
3 NaN 0 1
对于缺失的数值,一种常见的启发式方法是用 NaN
相应列的平均值替换条目。
NumRooms RoofType_Slate RoofType_nan
0 3.0 0 1
1 2.0 0 1
2 4.0 1 0
3 3.0 0 1
NumRooms RoofType_Slate RoofType_nan
0 3.0 0 1
1 2.0 0 1
2 4.0 1 0
3 3.0 0 1
NumRooms RoofType_Slate RoofType_nan
0 3.0 0 1
1 2.0 0 1
2 4.0 1 0
3 3.0 0 1
2.2.3. 转换为张量格式
inputs
现在 和中的所有条目targets
都是数字,我们可以将它们加载到张量中(回忆一下2.1 节)。
(tensor([[3., 0., 1.],
[2., 0., 1.],
[4., 1., 0.],
[3., 0., 1.]], dtype=torch.float64),
tensor([127500, 106000, 178100, 140000]))