现在我们已经介绍了一些用于构建和训练深度网络并使用包括权重衰减和丢失在内的技术对其进行正则化的基本工具,我们准备通过参加 Kaggle 竞赛将所有这些知识付诸实践。房价预测竞赛是一个很好的起点。数据相当通用,没有表现出可能需要专门模型(如音频或视频可能)的奇异结构。该数据集由 De Cock ( 2011 )收集,涵盖 2006 年至 2010 年爱荷华州埃姆斯的房价。 它比Harrison 和 Rubinfeld (1978)著名的波士顿住房数据集大得多,拥有更多的例子和更多的特征。
在本节中,我们将带您了解数据预处理、模型设计和超参数选择的详细信息。我们希望通过实践方法,您将获得一些直觉,这些直觉将指导您作为数据科学家的职业生涯。
No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)
5.7.1. 下载数据
在整本书中,我们将在各种下载的数据集上训练和测试模型。在这里,我们实现了两个实用函数来下载文件和提取 zip 或 tar 文件。同样,我们将它们的实现推迟到 第 23.7 节。
5.7.2. 格格
Kaggle是一个举办机器学习竞赛的流行平台。每场比赛都以数据集为中心,许多比赛由利益相关者赞助,他们为获胜的解决方案提供奖励。该平台帮助用户通过论坛和共享代码进行交互,促进协作和竞争。虽然排行榜追逐经常失控,研究人员短视地关注预处理步骤而不是提出基本问题,但平台的客观性也具有巨大价值,该平台有助于竞争方法之间的直接定量比较以及代码共享,以便每个人都可以了解哪些有效,哪些无效。如果你想参加 Kaggle 比赛,你首先需要注册一个账号(见图 5.7.1)。
在房价预测比赛页面,如图 5.7.2所示,可以找到数据集(在“数据”选项卡下),提交预测,就可以看到你的排名,网址在这里:
5.7.3. 访问和读取数据集
请注意,比赛数据分为训练集和测试集。每条记录包括房屋的属性值和街道类型、建造年份、屋顶类型、地下室状况等属性。特征由各种数据类型组成。例如,建造年份用整数表示,屋顶类型用离散的分类分配表示,其他特征用浮点数表示。这就是现实使事情复杂化的地方:例如,一些数据完全缺失,缺失值简单地标记为“na”。每个房子的价格仅包含在训练集中(毕竟这是一场比赛)。我们希望对训练集进行分区以创建验证集,但我们只能在将预测上传到 Kaggle 后才能在官方测试集上评估我们的模型。图 5.7.2有下载数据的链接。
首先,我们将pandas
使用我们在第 2.2 节中介绍的方法读入和处理数据。为了方便起见,我们可以下载并缓存 Kaggle 住房数据集。如果与此数据集对应的文件已存在于缓存目录中并且其 SHA-1 匹配sha1_hash
,我们的代码将使用缓存文件以避免因冗余下载而阻塞您的互联网。
class KaggleHouse(d2l.DataModule):
def __init__(self, batch_size, train=None, val=None):
super().__init__()
self.save_hyperparameters()
if self.train is None:
self.raw_train = pd.read_csv(d2l.download(
d2l.DATA_URL + 'kaggle_house_pred_train.csv', self.root,
sha1_hash='585e9cc93e70b39160e7921475f9bcd7d31219ce'))
self.raw_val = pd.read_csv(d2l.download(
d2l.DATA_URL + 'kaggle_house_pred_test.csv', self.root,
sha1_hash='fa19780a7b011d9b009e8bff8e99922a8ee2eb90'))
训练数据集包含 1460 个示例、80 个特征和 1 个标签,而验证数据包含 1459 个示例和 80 个特征。
Downloading ../data/kaggle_house_pred_train.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_train.csv...
Downloading ../data/kaggle_house_pred_test.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_test.csv...
(1460, 81)
(1459, 80)
Downloading ../data/kaggle_house_pred_train.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_train.csv...
Downloading ../data/kaggle_house_pred_test.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_test.csv...
(1460, 81)
(1459, 80)
Downloading ../data/kaggle_house_pred_train.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_train.csv...
Downloading ../data/kaggle_house_pred_test.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_test.csv...
(1460, 81)
(1459, 80)
Downloading ../data/kaggle_house_pred_train.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_train.csv...
Downloading ../data/kaggle_house_pred_test.csv from http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_test.csv...
(1460, 81)
(1459, 80)
5.7.4. 数据预处理
我们来看看前四个和最后两个特征以及前四个示例中的标签 (SalePrice)。
Id MSSubClass MSZoning LotFrontage SaleType SaleCondition SalePrice
0 1 60 RL 65.0 WD Normal 208500
1 2 20 RL 80.0 WD Normal 181500
2 3 60 RL 68.0 WD Normal 223500
3 4 70 RL 60.0 WD Abnorml 140000
Id MSSubClass MSZoning LotFrontage SaleType SaleCondition SalePrice
0 1 60 RL 65.0 WD Normal 208500
1 2 20 RL 80.0 WD Normal 181500
2 3 60 RL 68.0 WD Normal 223500
3 4 70 RL 60.0 WD Abnorml 140000
Id MSSubClass MSZoning LotFrontage SaleType SaleCondition SalePrice
0 1 60 RL 65.0 WD Normal 208500
1 2 20 RL 80.0 WD Normal 181500
2 3 60 RL 68.0 WD Normal 223500
3 4 70 RL 60.0 WD Abnorml 140000