俞扬:人工智能不是一蹴而就,要靠厚积薄发

MqC7_CAAI_1981 2019-07-30 4032

电子说

1.4w人已加入

描述

2019年中国人工智能大会（Chinese Congress on Artificial Intelligence 2019，简称“CCAI 2019”）将于9月21日-22日在青岛胶州召开。南京大学人工智能学院俞扬教授将出席大会，并担任人工智能青年论坛共同主席。

俞扬在2011年博士毕业后，留校加入计算机科学与技术系、机器学习与数据挖掘研究所（LAMDA）从事教学与科研工作，主要研究领域为人工智能、机器学习、强化学习。他还入围了2018年度IEEE Intelligent Systems评选的国际“人工智能10大新星”名单，是该次国内高校唯一入选者。

近年来的爆发让人工智能成为当下最火热的风口行业之一，机器学习又是其中的先驱领域。作为这方面的专家，俞扬如何评价这一轮行业发展热潮？我们对他的观点和思考作了梳理，一起来看。

人工智能不是一蹴而就，要靠厚积薄发

2016年围棋人机大战中，DeepMind开发的AlphaGo以4:1的绝对优势，横扫人类顶级选手柯洁、韩国名将李世石，让世人对智能的力量大为惊叹。

俞扬通过拆解AlphaGo的训练“秘密”，指出了它惊艳亮相背后的成功路径。

AlphaGo的基础框架是“蒙特卡洛树搜索”。在俞扬看来，这是一种聪明的搜索算法，它可以成功避免很多无效搜索，但现在也只能达到业余棋手五段、六段的水平，远不具备与人类顶尖棋手对话交锋的实力。

在此基础上，AlphaGo引入了“机器学习”，通过学习人类历史上高手对弈的棋局数据，模拟人类走法，如果碰到没有见过的棋局，则以过往相似棋局作为参考。它虽然可以学习，但无法理解这些走法背后的玄机。此外，AlphaGo还通过“强化学习”，自己与自己对弈来提升水平。

俞扬指出，这种学习机制并不是新事物。AlphaGo涉及的所有算法部件都是现成的，“蒙特卡洛树搜索”已经发展了十年，强化学习也经历了数十年的发展。AlphaGo的突破在于，人们以卓越的工程水平实现了这些技术的结合，用成百上千的CPU和数百个显卡实现了加速计算。

AlphaGo的例子清晰地表明，人工智能近年来的成功并不是一蹴而就的，而是许多年基础研究的成果。既然我们希望人工智能的发展能够更多的造福于未来生活，就要做好长期基础研究的探索和积累，这样才能做到厚积薄发。

人工智能发展的“奇点”还未来临

人工智能在人机对弈、图像识别、语音识别等领域的进步，引发了行业内外的强烈关注和热切讨论。作为机器学习领域的专家，俞扬如何看待这些进步呢？

俞扬曾对媒体表示，虽然人工智能迎来了第3次发展热潮，但“人工智能威胁论”尚不成立，人工智能发展“奇点”还未来临。他提出，不要混淆“技术进步”和“社会进步”的概念。以蒸汽机为例，它带来了工业革命，人类生产力得到巨大提高，颠覆性地改变了人类社会的生产生活面貌，但在这一过程中，要注意原理和工艺的区别。蒸汽机的原理自诞生起就不再出现变化，人类不断改造和升级的，是蒸汽机的工艺水平。正是因为后者的不断提升，才让蒸汽机效率更高、价格更低、使用更安全方便，进而广泛普及开来，推动了社会进步。如果依照“奇点”理论来推算，蒸汽机应当迅速发展，但工程工艺的精化无法克服其原理上的先天缺陷，后来还是被内燃机所取代。今天我们在汽车、飞机上已经看不到蒸汽机的影子了。

人工智能的决定权依然在人

关于人工智能的能力边界问题，一直以来都存在不同的声音。人工智能有没有权限做决策？如果有，这一权限应该多大？

2018年3月，一辆自动驾驶的Uber在美国亚利桑那州撞倒了一位推着自行车的女性，致其身亡，这是自动驾驶导致行人死亡的第一例事故。事件迅速发酵，引发了关于人工智能安全问题的广泛讨论。

对此，俞扬明确表示，人工智能作为一个工具，如何使用，目前来看决定权依然在人，系统的设计者和商业（应用）的提供人员需要对此负责。他说，“我们必须清楚地知道人工智能会做出什么样的决策。对人工智能的应用范围，以及应用结果的预期，一定要有约束”。在人工智能决策相关的问题上，人类一定要慎之又慎，环境是否可控，是否经过了可理解性的测试，决定了它是否可以用在关键的场所。否则，产品就存在重大缺陷。

在高效强化学习方面的探索

俞扬介绍道机器学习可以有“机械学习”、“示教学习”、“类比学习”和“归纳学习”等多种类型。自20世纪80年代以来，归纳学习成为机器学习中被研究最多、应用最广的分支。归纳学习又分为监督学习、无监督学习和介于二者之间的弱监督学习。

强化学习可以看作是一种弱监督学习，它的数据标记需要靠自己探索来获得，往往需要经过多次决策的探索才能获得标记。

俞扬指出，强化学习在现实社会的应用还很少。当前强化学习主要有两个经典方法：一是对值函数的学习；二是策略搜索方法。但这两个方法对于样本的需求量都极其大，在真实物理环境中的应用很难得到满足。俞扬以狗举例，让狗听懂“趴下”只需半个小时，这个过程大概有二十个样本。由此可见机器强化学习的能力与生物相比，还有很大差距。即目前强化学习方法的样本利用率很低，这种低效可能来源于优化能力、方法论等多个方面的局限。

2017年，俞扬介绍过自己在提高机器强化学习能力方面的一些探索。近期，他的研究更关注模拟器的构建。俞扬认为强化学习落地的主要瓶颈在于需要大量试错，而现实环境难以承受试错代价，构建模拟器可能是突破瓶颈的一条可行途径。2017年开始，俞扬与阿里巴巴合作，成功构建了“虚拟淘宝”，模拟了购物的买家。“虚拟淘宝”模拟器用于训练强化学习，从而避免了试错代价，最终训练出的模型，直接上线测试，获得了2%的性能提升。俞扬认为“零试错”是强化学习能够得以推广应用的关键门槛，并且看好强化学习未来落地应用的前景。

打开APP阅读更多精彩内容