智能决策从虚拟到现实——强化学习落地

每日机器人峰汇 2019-07-30 4007

描述

迄今为止，大部分人工智能落地的技术都在预测技术方面，而不是决策技术，目前决策技术的应用落地还很少。对此，俞扬以诊断报告作比喻，形象地指出，日常生活中想达到目的，比如看到诊断报告识别问题，我们不可能等着病的发生，而是想办法将病治愈。但是决策方面落地的技术非常少，据俞扬介绍，以往决策的途径可以分成以下三种。

南京大学人工智能学院俞扬教授

第一种是写规则，即通过程序员将决策方式或企业决策的解决方法写入系统中，这是决策技术的现状；第二种是做规划，将要解决的目标写下来，用机器找到决策，虽然机器自动解决问题，但问题的定义还是由人来做，一旦定义出现错误，定义的和真实的情况不符合，那么系统就没有任何途径能够修正这个定义。第三种途径是基于学习的途径，即基于数据驱动的途径，通过环境感知来定义应该解决什么样的问题。俞扬表示，第三种方法看起来更有可能解决真实环境中做决策的问题。

机器学习的三大技术

若将机器做决策放在学习的框架上，则可以分为无监督学习、监督学习和强化学习三大类技术。其中，无监督学习的数据没有任何标记，它所做的事是分析数据，从中发现数据结构是什么。而监督学习是目前落地最多的技术，通过很多标注的数据，告诉机器图像中是什么样的对象，让机器可以在数据中预测、识别到对象。

强化学习是机器学习中的一个重要研究领域，从大量数据中反复学习找到最优解，只从最终产生的结果来倒推模型应该是什么，正好对应做决策。俞扬指出，实际上这两年强化学习在做决策方面有很大突破，突破主要是在规模上，此前大热的AlphaGo与AlphaGo Zero都是经过深度强化学习后，在游戏中“碾压”了人类。

强化学习面临的困境

虽然强化学习发展较快，但目前所有的成功案例都发生在电子环境下。俞扬认为，主要原因是现在的算法效率太低。因此也出现很多批评的声音，说强化学习，特别在引入深度学习后，需要的数据样本量更大，导致这种方法无法直接应用于实际中。

俞扬指出，在很多传统工业，特别是机器人设计中，大家可能会很熟悉做模拟器。模拟器通常用于高成本的行业，在传统工业里，为了减少和真正环境的交互，通常在模拟器里先进行设计。那么，能否让机器在模拟器中学习决策呢？俞扬以购物平台为例，指出机器在了解买家行为的过程中，通过多代理模仿学习，根据买家数据进行观察再行动。他表示，机器学习决策所面临的环境更大程度上更困难，因为它是一个开放环境，而不是和固定的物理定律打交道。

打开APP阅读更多精彩内容