电子说
机器学习是一种将传统数学与现代强大的计算处理相结合的技术,以学习数据集中固有的模式。 在机器学习中,目标是产生一种可以使用这些模式执行某些指定任务的算法。
在监督式机器学习的情况下,目标可能是开发一个模型,该模型可以识别一组输入所属的类别或类别,或预测连续值,例如房屋价格。
在本文中,我将介绍机器学习中的一些关键概念。 如果您是机器学习的新手,这将使您对本领域中使用的一些术语和技术有一个很好的了解。
1.特征
在机器学习中,我们上面讨论的输入称为特征。 要素是分配给数据点的一组属性。
以下示例数据集是著名的数据集,通常用于机器学习实践问题(称为"波士顿住房价格")。 它由一组与房屋相关的功能(在下图中以红色突出显示)组成,例如年龄,平均房间数和物业税值以及相应的房价。
为了使机器学习模型成功完成其任务,至少其中一些功能与房屋价格之间需要存在统计关系。
> Boston housing prices dataset — features are highlighted red
2.特征选择与工程
优化机器学习模型的重要一步是优化。 我们开发的模型需要以最佳状态执行,而要确保做到这一点的一种方法是使用最佳功能来训练模型。
包括每个特征并不总是有用的。 有些特征可能与我们尝试预测的变量没有有意义的统计关系,而另一些特征可能彼此紧密相关。 这两种情况都将噪声引入训练阶段,这可能会降低模型性能。 特征选择是选择最佳特征以包含在训练阶段中的过程。
同样,原始形式的特征可能无法提供足够的有意义的数据来训练性能模型。 另外,某些特征根本不能以其原始形式使用,一个很好的例子就是基于日期/时间的功能。 机器学习模型不能使用日期或时间戳作为特征,我们需要首先从日期中导出有意义的特征,才能包含此信息。 我们可以使用整数形式的日期部分(例如月,日或星期数),或计算两个日期之间的差,以提供算法可以理解的模式。 这就是所谓的特征工程。
3.标签
有监督的机器学习需要一些被称为标记数据的东西。 这意味着每组要素都具有相应标签的数据。 这些标签可以是类别或类型(例如猫或狗),也可以是连续值,例如在波士顿房屋价格数据集中以标签为价格的情况。
在开发机器学习模型时,功能通常称为X,标签称为y。
> Boston housing prices dataset — labels are highlighted red
4.训练
监督式机器学习需要标记数据,因为算法使用这些示例特征值及其对应的标记来"学习"模式,如果成功,则将使模型能够准确地预测新的未标记数据上的标记。
在机器学习过程中,学习的这一阶段称为训练阶段。 在此阶段结束时,您将拥有一个可用于预测新的未标记数据的标签或值的模型。 训练阶段通常称为拟合模型。
5.调参
在本文前面介绍功能选择时,我曾讨论过一个优化过程。 此过程的另一部分称为调参,涉及优化算法参数以找到适合您特定数据集的最佳组合。
所有机器学习模型都包含具有多种选项的参数。 例如,随机森林模型具有许多可调参数。 一个示例是n_estimators,它确定森林中树木的数量。 通常,树的数量越多,结果越好,但是在特定点(并且这取决于数据集),随着您添加更多的树,改进会降低。 为您的数据集找到最佳树数是一种调整随机森林算法参数的方法。
每种算法都有许多可调参数,并且每个参数都有大量潜在的选项。 幸运的是,有自动方法可以找到这些参数的最佳组合,这就是所谓的超参数优化。
6.验证
建立模型后,我们需要确定其执行给定任务的能力。 在我们的示例数据中,我们将要了解模型可以多么准确地预测房屋价格。 在机器学习中,建立最佳性能指标很重要,这将根据我们要解决的问题而有所不同。
通常,在开始机器学习项目时,我们将首先将要使用的数据集分为两部分。 我们一个用来训练模型,另一个用于测试阶段。
机器学习中的测试通常称为验证。 我们使用模型对保留的测试数据集进行预测,并测量所选的性能指标,以确定模型能够很好地执行给定任务。
本文概述了讨论机器学习时最常用的一些术语和概念。 如果您刚刚开始学习,它应该可以帮助您了解机器学习教程中使用的一些术语。 如果您想深入学习使用python创建您的第一个模型,可以在这里阅读我的教程"如何创建您的第一个机器学习模型"。
全部0条评论
快来发表一下你的评论吧 !