一文详谈机器学习

123xiaowang蓝色_ 2020-07-01 2345

电子说

1.4w人已加入

描述

一。什么是机器学习

人工智能标准化白皮书（2018版）

机器学习（Machine Learning）是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，是人工智能技术的核心。

基于数据的机器学习是现代智能技术中的重要方法之一，研究从观测数据（样本）出发寻找规律，利用这些规律对未来数据或无法观测的数据进行预测。

Andrew Ng （吴恩达）

Machine Learning is the science of getting computers to act without being explicitly programmed.

机器学习是一门让计算机无需显式编程即可运行的科学。

Microsoft（微软公司）

Machine learning is a technique of data science thathelps computers learn from existing data in order toforecast future behaviors， outcomes， and trends.

机器学习是一种数据科学技术，它帮助计算机从现有数据中学习，从而预测未来的行为、结果和趋势。

二。机器学习的相关术语

样本（sample）、示例（instance）：

所研究对象的一个个体。相当于统计学中的实例（example，instance）

特征（feature）、属性（attribute）：

反映事件或对象在某方面的表现或性质的事项，如大小，颜色

属性值（attribute value）：

属性上的取值，例如“青绿”“乌黑”

属性张成的空间称为 “属性空间”（attribute space）、“ 样本空间”（sample space）或“输入空间”。

特征空间（feature space）：

分别以每个特征作为一个坐标轴，所有特征所在坐标轴张成一个用于描述不同样本的空间，称为特征空间

在该空间中，每个具体样本就对应空间的一个点，在这个意义下，也称样本为样本点。

每个样本点对应特征空间的一个向量，称为 “特征向量”

特征的数目即为特征空间的维数。

样本集（sample set）、数据集（data set）：

若干样本构成的集合；该集合的每个元素就是一个样本

测试样本”（testing sample）：

学得模型后，使用该模型进行预测的过程称为“ 测试”（testing），被预测的样本称为“测试样本”。

标记（label）：

有前面的样本数据显然是不够的，要建立这样的关于“预测”（prediction）的模型，我们需获得训练样本的“结果”信息，例如“（（色泽=青绿;根蒂=蜷缩;敲声= =浊响），好瓜）”。这里关于示例结果的信息，例如“好瓜”，称为“标记”（label）; 拥有了标记信息的示例，则称为“样例”（example）。

分类（classification）：

若我们欲预测的是离散值，例如“好瓜”“坏瓜”，此类学习任务称为“分类”

回归（regression）

若欲预测的是连续值，例如西瓜成熟度0.95、0.37，类学习任务称为“回归”。

对只涉及两个类别的称为“二分类’（binary classification）’

聚类”（clustering）

即将训练集中的样本分成若干组，每组称为一个 “簇”（cluster）;

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：“ 监督学习”（supervised learning）和 “无监督学习”（unsupervised learning），分类和回归是前者的代表，而聚类则是后者的代表.

打开APP阅读更多精彩内容