监督学习和无监督学习

PCB88475579 2020-04-15 4436

电子说

1.4w人已加入

监督学习

监督学习，小编有个简单的理解方式，按照这个顺序来理解

1、有两拨人，一拨人是好人，一拨是坏人

2、好人的行为特征有：扶老奶奶过马路，捡到一分钱交给警察叔叔，当志愿者等等

3、坏人的行为特征有：偷东西，抢劫，欺负好人等等

4、有个审判官，根据你的行为来进行判断是好人还是坏人

5、新进来一个小伙伴，由于此人经常扶老奶奶过马路，当志愿者等等，因此审判官就把你判断为好人

这五点，融入到机器学习里面，用机器学习的话来说

好人与坏人：标签

好人或者坏人的行为：特征值

审判官：训练好的模型

新来的小伙伴：未知类别，待打上标签的数据

这样子是不是就比较好理解了，机器学习里面，先根据已有数据进行模型训练从而得到一个函数，当有新的数据到来的时候，根据这个函数预测结果。

监督学习里面的训练集合包含了输入与输出，代表着特征值与标签值。

在一般情况下，用来训练的训练集的标签都是由业务方来标记，在工作中，最常见的其实就是数据分类了，通过已有的训练的样本去训练得到一个模型，我们会采用K折交叉验证来进行调参，从而得到参数的局部最优解，再根据这个模型去预测数据。

在监督学些中，最常见的是回归与分类，常见的算法有KNN，SVM，随机森林等

相比于监督学习，无监督学习，其实就是少了这个监督，也就是没有标签。

还是那两拨人，但是这两拨人没有实现标记谁是好人，谁是坏人，他们聚在一起，这时候，上帝之手出现了，它让这些人喜欢干嘛就去干吧，不要犹豫，于是乎，好人们开始去扶老奶奶过马路，坏人们开始去当小偷，上帝之手成功把这两拨人给分离开来，接着，给他们分别打上标签：好人，坏人。

这个上帝之手，就是计算机。

无监督学习中，有两种方法

1、基于概率密度函数直接评估：其实就是根据每一个类别的特征在空间的分布情况得到分布参数，根据这些分布参数来进行分类。

2、基于数据样本之间的相似性进行度量的聚类方式：假定每一个类别都有核心（当成黑帮老大来理解），以这个核心的特征为标准，把其他样本的特征与这个核心的特征进行比较，当发现这是一类人的时候，就整合在一起好了，这样子，不同类别就出来了。

这就是聚类，算法中，K-Mean，PCA，很多深度学习的算法，都是无监督学习。

1、监督学习必须有训练样本及测试样本，对训练样本进行训练得到规律，再用这个规律来运用在测试样本上；当时无监督学习就不用，一组数据，啥都没有，直接就扔给计算机，让它自己算。

2、监督学习必须有标签，无监督学习不用标签，让计算机自己去分类，然后我们人工根据业务情况打上标签。

两者的使用场景

这个说简单也挺简单，根据业务方来定，如果业务方给了一组数据，然后还告知了类别，那就用监督学习，反着，则用无监督学习。

打开APP阅读更多精彩内容