科大讯飞轮值总裁胡郁今天在“第三届网易未来科技峰会”发表演讲,介绍科大讯飞深度学习发展之路:从2010年开展DNN语音识别研究,2011年上线首个中文语音识别DNN系统,2013年语种识别首创BN-ivec技术,2016年将注意力模型神经网络应用于认知智能。胡郁介绍了用卷积神经网络“看”语音,正确率大幅提高。胡郁认为再过四五年,语音识别系统就能达到人类水平。胡郁还介绍了讯飞超脑使用的一种基于注意力模型的表达体系,在空间上描述语言概念,计算词语、句子在各个层面上的连接和计算距离,从而进行深层分析。
讯飞开放平台微信后台回复“0630人工智能”,下载完整PDF。
【胡郁】首先非常高兴有机会在这里跟大家进行交流和讨论,刚才汪建老师说,将来的世界是一个生命科技的时代,我非常同意这一点,将来人类的命运掌握在我们自己手里,我们可以改造自己,但是我们人类也想扮演上帝的角色。
大家都知道人类能够在地球上统治整个世界,是因为我们有智能,现在人类不仅仅自己有智能,还希望能够创造出新的智能。在当前世界,各种各样的智能层出不穷,甚至有段时间“智能”一词都被用滥了,到底智能应该向什么方向发展,智能到底应该给我们带来什么?今天我们带着这个疑问想跟大家探讨一下。
大家都知道3月份时有个非常著名的AlphaGo大战李世石,在此之前很多人都给出了预测,包括我自己在内,我当时的预测是机器人一定能够战胜人类。为什么呢?其实在研究界有句很有名的话,机器人在智能方面战胜人类一定用它最擅长的方式,而不是用人类思维的方式。我们原来在讨论时总想着下围棋是一个非常高尚的运动,并不是每个人都能把围棋下得很好,但其实机器根本不是这么想的,在下完这个比赛后,凤凰卫视《一虎一席谈》请我去讨论AlphaGo和李世石对弈的情况,记得在比赛前柯洁九段并不认为AlphaGo有多厉害。但在节目上连线柯洁九段时,他就比较谦虚了,说自己还需要好好准备。
为什么这么说呢?我们来看一下,AlphaGo为什么能够战胜人类,因为它用的确实不是人类所擅长的方法,而是机器所擅长的方法,AlphaGo能够同时计算每步棋下几十步甚至上百步的可能性,而且AlphaGo能够记住3000万种法的对弈,而这是我们人类所不擅长的。
反过来人工智能是不是能够在所有方面超越人类呢?我觉得这也不一定,因为我们看到围棋是一个完全信息透明情况下的公开博弈,就像以前的国际象棋,机器是占有很大优势的。
很多人会问,人工智能到底体现在什么方面呢?我们知道人类有农业革命、工业革命,还有现在讲的信息革命,但可能很多人不知道的是,人类在统治地球的过程中其实经过了漫长的历史发展。有一本书《人类简史》,以色列一个年轻的历史学家写的,他在这本书里写道,其实人类在地球上已经出现200万到300万年了,但这些人类在全球各地,就是我们讲的猿人——中国的山顶洞人、元谋人和蓝田人——但经过历史学家和基因工作者的研究,大家知道,7万年前,我们的祖先叫智人,从非洲走出来,走到世界各地,把其他猿人都给灭种了。现在不管是黑人白人还是棕色人种、黄种人,都是智人的后代。
在这个过程中,好像他们突然开窍了一样,人的智能在经过两三百万年的发展,突然迈上一大步,是什么让他们走到这一点?历史学家把这叫做“认知的革命”,因为他们发现这些人跟其他猿人最大的不同是在他们的语言得到了极大的丰富,大家知道先有对话才产生文字,产生文字后有几个好处:
第一个好处,它可以更好地描述周围的自然世界,比如河边有只狮子,他们知道狮子长多大,身上有没有病,处于什么样的状态,更重要的是因为有了语言、有了语音,我们可以描述团队和团队之间的关系,如果没有语言,看现在动物群种里面的黑猩猩,一个团队最大不能超过50头,超过50头就无法管理。但智人因为有了语言,因为他们之间可以八卦,张家长李家短,他们可以组织上千人的团队做一件事情。更重要的是,有了语言以后我们可以描述我们共同想像的内容,一些虚构的概念,“公司”、“梦想”都是从此得来。所以我们可以看到,现在历史学家一个非常重要的认为,就是人类的认知革命将人类的智能带到一个新的高度。
回顾一下我们可以看到,从刚才讲的机器所擅长的运算智能,算棋谱时机器比我们强很多,但如果讲到感知智能,就是我们看到世界、听到周围世界的能力,机器也在快速赶上来,但在认知方面,让我们能够有语言、有语音,能够积累知识、能够进行判断这方面,机器其实比我们差得很远。
这也是科大讯飞现在以语音和语言为入口的计算机的认知革命,我们所执行的讯飞超脑计划想要做的事情,就是把机器的感知智能和认知智能通过传感器和算法感知世界,并且能够对自然的人类世界进行认知,作为我们人工智能一个非常重要的突破点。
用机器计算模拟人类的感知和认知
怎样实现这种突破,其实我们有两种不同的途径,一种和我们的脑科学非常有关,我们可以对大脑所有的神经元构造和它的工作机理进行分析,我们甚至可以根据大脑的整个工作机理重构出来真正和大脑相同的机制,这是一条思路,但这条思路时间比较长,现在包括一些发达国家也在投入这方面的研究,另外一条思路就是用互联网的思维,利用我们机器学习算法和大数据在尽可能快的过程中,就像AlphaGo一样,它其实就是利用了这种方法,不完全能模仿大脑,但利用机器运算的方法能够模拟我们的感知和认知。今天我讲的主要是后面的具体方式。
从人脑中获取智能最关键的一点是,就像我们都知道人类现在能飞上天,但我们并没有把自己变成鸟,我们是知道了鸟在飞行时的空气动力学,我们研究大脑,其实并不是把大脑完全复制,而是希望找到大脑中的“智力动力学”,进一步优化我们整个学习的算法。
从另一个角度,如果用互联网思维来解决、改进我们的人工智能,要感谢三个方面的进展:一是人工神经网络,这个人工神经网络就像我刚刚说的,只是学到了大脑一些简单的机理,没有大脑那么复杂,但已经可以很好地工作了;另外拜互联网和移动互联网所赐,我们可以得到大量的数据;更重要的是我们有千千万万的,就像网易、讯飞这些直达用户的产品,这些产品把用户的使用习惯源源不断传入后台,我们可以利用网络的效应不断地优化它。正是因为有这三者的支撑,我们得到了非常好的结果。
用识别图像的方法“看”语音,正确率大幅提高
真正人工智能的框架应该是什么样的呢?再给大家举个例子,人类大脑皮层在工作过程中分为两个层面:一个叫感知层面,就是我们讲的视觉、听觉和触觉,还有一个层面是认知层面,当我们看到一只猫,听到猫的叫声,或者是摸猫的皮毛,人脑里有一个概念,这些概念形成了我们语言中的单词和词汇,就是“猫”这个概念,它们汇聚到我们讲的语言和理解的大脑的认知皮层层面。所以在讯飞超脑里分两个层面:一是感知智能,是对我们听到的、看到的、碰到的东西进行识别,另一个是认知智能,就是把识别结果上升到我们认知的层面,形成一个概念空间的表示和推理。在过去5年中,科大讯飞相继把深度学习网络应用在刚才讲的感知和认知,包括视觉、包括听觉,包括自然语言,包括翻译的各个方面。
介绍一下我们最新的研究成果(工作人员播放一下第一句,再播放一下第二句)。
这是一段语音片断,大家听到第一个好像是“休息”,第二个好像是“休息室”。但当听完完整片断时你会知道,原来是“《西游记》之大闹天宫”,人脑是怎么工作的呢?人脑能够记下短时或中间的或长时的记忆,通过这种记忆,我们可以看到我们现在的神经网络其实是可以很好地模拟这个过程的,我们通过一种递归的方法,就可以让神经网络能够模拟大脑方面的感觉,这是现在最新型的递归神经网络用于语音识别的过程,这个过程非常复杂,我就不一一介绍了。
但光有递归还不够,光能够存储记忆还不够。现在最新的一个方式是用图像的方法识别语音,这是当前最新的技术,什么叫做图像方法呢?大家可以看到,下面这个语音是我们平常在录音里看到的波形,但当语音进入我们的耳朵时,耳朵里的纤毛会根据它的长度不同与语音中不同的频率进行共振,如果把共振的频率分析出来,我们可以得到下面的语谱图,这张图可能会受噪音、口音的干扰,但这个图形里的信息很丰富。在MIT专门有科学家研究,如何根据这些图形就能够分辨出你说的这句话里用了哪些文字。
如果你是一个盲人,你的耳朵就会特别灵,因为它借用了我们在视神经方面的一些神经系统和细胞,这样可以把一些能力借用过来。
可以说,现在我们的语音不仅可以听到,而且可以看到。因为这样的结果,在各种各样的输入法里,在语音搜索里,还有在各种各样的语音交互式系统里,语音识别的错误率正在以每年30%的水平下降,我相信再过四到五年的时间,最后的语音识别系统就能跟人整个的感觉完全一样了。
刚才说了,在感知方面,讯飞的语音识别技术不断取得提升,但是在认知方面,它还要解决几个非常核心的任务——讯飞超脑关于语言理解及深层、知识表述及推理,还有自主学习,要实现这些必须要有两个层面的东西:第一是要解决自然语言描述的问题,在此基础上我们要解决语言理解,还有更深一层的知识表述及推理。下面我们一一看一下。
用“词语卷积”在空间上表达词语
刚才我们提到了大脑在大脑皮层中关于概念的表示,它是一张图,不同的词语它们之间概念是有空间的,我给大家举个例子,比如“大家好”,传统的表达,每个词就代表了一个空间,我们把每个词的出现看成“1”,不出现的地方看成“0”,这是传统表现词语的一种方法,词语和词语之间,要不就是距离相同,要不就是不同。
现在我们采用一种连续的空间来表现词语,每个字、每个词都可以用“词语卷积”的方法,用一段连续的数字,相当于一个空间里的坐标系,这样每两个单词之间的距离就可以把它计算出来。
把所有词分一下类就可以看到这么一个结果,比如我们可以看到新浪、网易、腾讯,这些东西是连在一起的;我们可以看到吕布、张飞、关羽、诸葛亮,它们是比较接近的。实际上,在我们的大脑皮层中如果你来测量,比如我播放一个词语,我的大脑里会出现放电,相关词语在大脑皮层中存储的位置也是非常接近的。
利用这种方法,我们就建立了一种表现词语空间概念的表达体系,在这样的表达体系之下,我们可以进一步地去分析词语层面、句子层面和篇章层面,以及它们在各个层面上的连接和计算的距离。
有了这个以后,我们来看一些实际的作用,它们能做什么样的事情呢?首先我们看一下语言的理解。 首先来看翻译,在翻译方面,我们知道要进行语句的练习,因为不同语言是不一样的,这时候用到人脑中一个非常重要的概念——关注度模型,比如我们人在看一幅图像,海边有一个灯塔,我们看的时候注意力是集中在灯塔上而不是其他方面。
基于注意力模型的神经网络
下边这张图比较有意思,下面这张图是一个女司机在开车时观察各种各样的东西,她的注意力只能集中在有限的方面,相对男性要窄一些,所以人们常说“女司机杀手”可能就是这么来的。
如果我们来看一段文字,这两天正好欧洲杯,我们的注意力其实也是集中在那些文字中比较有信息量的地方。这种关注度模型,其实它的方法是能够把我们最关注的那些输入量自动寻找出来,与我们最终的结果进行对应。我们来看一下基于机器翻译的实际例子:
大家都知道,不同的语言之间的机器翻译,比如有很多谓语、主语、宾语,它们的位置是不同的,会进行倒装,顺序也会发生很多变化,原来用规则的方法来描述这些变化非常复杂,通过我们现在讲的这个神经网络,大家可以看到,输入“我是谁”,“谁”和“我”,它们的位置是有差异的,利用attention这个神经网络,它们可以自动找到对应关系。采用全新注意力模型的神经网络翻译系统,相比传统系统,提高会非常多。
再看下一个具体的例子,我们都知道最近科大讯飞在教育方面做了非常多的工作,我们希望能够利用机器人帮助我们的老师进行卷面批改,比如我们写了一个作文,这篇作文,我们希望机器人也能给它打出分数并给出它的评语。
大家看这个样例,右上角的94分是这篇文章的得分,从这篇文章中可以看到它用到了排比,用到了一些语句的引用,我们如何来做,让机器也能看懂这些东西?机器的关注度如何自动落在这些关键的地方呢?其实很简单,刚才我们讲了,用连续空间把它表示出来,这些范文和作文之间的向量,利用关注度模型,会自动找到彼此之间比较对接的地方,它找到这些对接之后,就会进行深层分析。
通过这种方法,机器自动找到了这中间有相关的地方,应该讲,现在我们这方面的结果在中考和高考的作文评卷,不管是中文还是英文,都取得了很好的效果,比普通老师改得还要准确,当然这是大规模的结果。
最后我们来看一个阅读理解题,大家看到了,这其实是一个答题系统,我们看一段话,“月牙的影子在水中晃动”,原来有个题目叫“小鸭子看见了,以为是条鱼,赶紧游过去”,这是阅读理解,现在题目是我把“小鸭子”抠掉,让机器看完这段话以后自动在上面填出来这地方应该填什么,利用我们现在的系统,我们会把篇章和问题进行attention的规划,“小鸭子”也在其他地方也出现过,它可以计算出每个地方热力度(关注度)的情况,后来我们发现“小鸭子”的关注度最高,这样我们就可以把“小鸭子”填在这个地方,而且是填对的。
现在我们的机器在阅读理解方面能达到6岁儿童的水平,大家不要小看6岁儿童,6岁儿童在常识的理解达到了一个水平,而在6岁以后主要是学各种各样的知识,这就跟我们认知到的,2岁、3岁、4岁形成个人最重要的学习能力,这方面是最一致的。相信随着6岁儿童常识的学习能力达到以后,我们再给他灌输小学、初中、高中的知识以后,它最后就能考上大学。
全部0条评论
快来发表一下你的评论吧 !