机器学习的6个关键概念

崔灏然 2020-04-14 4178

电子说

1.4w人已加入

描述

机器学习是一种将传统数学与现代强大的计算处理相结合的技术，以学习数据集中固有的模式。在机器学习中，目标是产生一种可以使用这些模式执行某些指定任务的算法。

在监督式机器学习的情况下，目标可能是开发一个模型，该模型可以识别一组输入所属的类别或类别，或预测连续值，例如房屋价格。

在本文中，我将介绍机器学习中的一些关键概念。如果您是机器学习的新手，这将使您对本领域中使用的一些术语和技术有一个很好的了解。

1.特征

在机器学习中，我们上面讨论的输入称为特征。要素是分配给数据点的一组属性。

以下示例数据集是著名的数据集，通常用于机器学习实践问题（称为"波士顿住房价格"）。它由一组与房屋相关的功能（在下图中以红色突出显示）组成，例如年龄，平均房间数和物业税值以及相应的房价。

为了使机器学习模型成功完成其任务，至少其中一些功能与房屋价格之间需要存在统计关系。

机器学习

> Boston housing prices dataset — features are highlighted red

2.特征选择与工程

优化机器学习模型的重要一步是优化。我们开发的模型需要以最佳状态执行，而要确保做到这一点的一种方法是使用最佳功能来训练模型。

包括每个特征并不总是有用的。有些特征可能与我们尝试预测的变量没有有意义的统计关系，而另一些特征可能彼此紧密相关。这两种情况都将噪声引入训练阶段，这可能会降低模型性能。特征选择是选择最佳特征以包含在训练阶段中的过程。

同样，原始形式的特征可能无法提供足够的有意义的数据来训练性能模型。另外，某些特征根本不能以其原始形式使用，一个很好的例子就是基于日期/时间的功能。机器学习模型不能使用日期或时间戳作为特征，我们需要首先从日期中导出有意义的特征，才能包含此信息。我们可以使用整数形式的日期部分（例如月，日或星期数），或计算两个日期之间的差，以提供算法可以理解的模式。这就是所谓的特征工程。

3.标签

有监督的机器学习需要一些被称为标记数据的东西。这意味着每组要素都具有相应标签的数据。这些标签可以是类别或类型（例如猫或狗），也可以是连续值，例如在波士顿房屋价格数据集中以标签为价格的情况。

在开发机器学习模型时，功能通常称为X，标签称为y。

机器学习

> Boston housing prices dataset — labels are highlighted red

4.训练

监督式机器学习需要标记数据，因为算法使用这些示例特征值及其对应的标记来"学习"模式，如果成功，则将使模型能够准确地预测新的未标记数据上的标记。

在机器学习过程中，学习的这一阶段称为训练阶段。在此阶段结束时，您将拥有一个可用于预测新的未标记数据的标签或值的模型。训练阶段通常称为拟合模型。

5.调参

在本文前面介绍功能选择时，我曾讨论过一个优化过程。此过程的另一部分称为调参，涉及优化算法参数以找到适合您特定数据集的最佳组合。

所有机器学习模型都包含具有多种选项的参数。例如，随机森林模型具有许多可调参数。一个示例是n_estimators，它确定森林中树木的数量。通常，树的数量越多，结果越好，但是在特定点（并且这取决于数据集），随着您添加更多的树，改进会降低。为您的数据集找到最佳树数是一种调整随机森林算法参数的方法。

每种算法都有许多可调参数，并且每个参数都有大量潜在的选项。幸运的是，有自动方法可以找到这些参数的最佳组合，这就是所谓的超参数优化。

6.验证

建立模型后，我们需要确定其执行给定任务的能力。在我们的示例数据中，我们将要了解模型可以多么准确地预测房屋价格。在机器学习中，建立最佳性能指标很重要，这将根据我们要解决的问题而有所不同。

通常，在开始机器学习项目时，我们将首先将要使用的数据集分为两部分。我们一个用来训练模型，另一个用于测试阶段。

机器学习中的测试通常称为验证。我们使用模型对保留的测试数据集进行预测，并测量所选的性能指标，以确定模型能够很好地执行给定任务。

本文概述了讨论机器学习时最常用的一些术语和概念。如果您刚刚开始学习，它应该可以帮助您了解机器学习教程中使用的一些术语。如果您想深入学习使用python创建您的第一个模型，可以在这里阅读我的教程"如何创建您的第一个机器学习模型"。

打开APP阅读更多精彩内容