机器学习算法：监督学习和强化学习

RG15206629988 2023-04-24 1995

人工智能

643人已加入

描述

根据机器学习所需完成任务的性质，机器学习算法可分类为监督学习和强化学习。

一、监督学习

监督学习的具体案例包括：垃圾邮件识别、人脸识别等。

垃圾邮件识别需使计算机“学会”识别某个邮件是否为垃圾邮件。为实现计算机识别垃圾邮件，开发人员需搜集较多的垃圾邮件和非垃圾邮件，并“告诉”计算机各个邮件分属于垃圾邮件或非垃圾邮件。

人脸识别需使计算机“学会”通过人脸识别不同人，为实现计算机人脸识别，开发人员需搜集较多的人脸图片，并“告诉”计算机各个人脸图片分别代表哪个人。

上述的邮件和人脸图片可被称为训练数据，“告诉”计算机邮件和人脸图片的归类被称为打标签（Labeling for training data）。

为数据打标签需要较大的人力成本，例如：现代人脸识别系统需要数千万张带有标签的人脸图片，一般为数千万张人脸图片打标签需要数万小时的时间。因此，随着机器学习的发展，为数据打标签成为了一个独特的产业。

综上，监督学习（Supervised Learning）可定义为：同时向计算机输入训练数据和对应标签的机器学习。

二、强化学习

强化学习的具体案例包括：计算机下棋、自动驾驶等。

在计算机下棋、自动驾驶中，计算机不是通过输入训练数据和对应标签进行学习，而是通过计算机与环境互动学习。具体而言，计算机产生行为，同时获得这个行为的结果。所使用的机器学习算法需定义每个行为的收益函数（Reward function），以使计算机获得每个行为的结果（收益值），即计算机因行为获得奖励（收益值为正）或因行为受到惩罚（收益值为负）。

例如：在计算机下棋的算法中，计算机胜利获得奖励，计算机失败受到惩罚；在自动驾驶的算法中，顺利到达目的地，计算机获得奖励，中途出事故，计算机受到惩罚。

同时，强化学习的算法需设计相应的算法，使得计算机可以自动改变行为模式以将收益函数最大化。

综上，强化学习（Reinforcement Learning）可被定义为计算机通过与环境的互动逐渐强化其行为模式。

三、监督学习和强化学习可结合使用

监督学习和强化学习的应用不是完全分割的，在一个机器学习算法中可以同时使用机器学习和强化学习。例如：围棋机器学习算法AlphaGo（根据百度百科：该围棋算法与围棋世界冠军、职业九段棋手李世石进行围棋比赛，以4:1的总比分获胜；该算法在中国棋类网站与中日韩数十位围棋高手进行比赛，连续60局无败绩；该围棋算法与排名世界第一的世界围棋冠军柯洁对战，以3:0的总比分获胜。围棋界公认该算法的棋力已超过人类职业围棋顶尖水平）

不是单独使用强化学习建立机器学习算法，而是首先通过网络中围棋高手的对局进行监督学习获得了一个较好的初始围棋程序，再对该初始围棋程序进行强化学习。

编辑：黄飞

打开APP阅读更多精彩内容