人工智能
2016年9月13日消息,NVIDIA在北京举办了GPU技术大会(GPU Tech Conference),这也是GTC第一次在国内举办。在这次大会上,NVIDIA发布了Tesla P4、P40深度学习芯片,此外黄仁勋也在北京与数以万计的AI、游戏行业的开发者们分享了他对GPU和未来计算的认知。以下内容是根据黄仁勋在GTC China 2016上的演讲实录整理。
一、4年以前,AlexNet第一次带来了深度学习的爆发
2012年一个年轻的研究员叫Alex Krizhevsky。在多伦多大学AI实验室,他设计了一个可以学习的软件,这个软件靠自己就能进行视觉识别。深度学习这个时候已经发展了一段时间,可能有20年。
Alex所设计的这个网络,它有一层一层的神经网络,包括卷积神经网络、激发层、输入和输出,可以进行区分。这样一个神经网络可以学会识别影像或者是规律。深层神经网络所带来的结果是它会非常有效,会超出你的想象,但是它进行训练需要的计算资源超过了现代计算机的能力,它需要几个月的时间去训练一个网络才能真正地识别图像。
Alex当时的看法是,有一个叫做GPU的新型处理器,通过一种叫CUDA的计算模式,可以适用于并行计算,用于非常密集的训练。2012年他当时设计了叫Alex的网络,提交给了一个大规模计算视觉识别大赛,是一个全球的竞赛,并且赢得了这个大赛。
AlexNet战胜了所有由其他计算视觉专家所开发的算法。Alex当时只用两个NVIDIA GTX580,在通过数据训练了几天后,AlexNet的结果和质量引起关注。所有搞计算视觉的科学家,所有的AI科学家都非常关注。在2012年,Alex Krizhevsky启动了计算机深度学习的基础,这是现代AI的一个大爆炸。他的工作和成果在全世界引起了很大反响。
我相信那个时刻会被记住,因为它确实改变了世界。之后有很多研究开始围绕深度学习进行。2012年斯坦福大学的吴教授(吴恩达)和我们开发了一个非常大规模的GPU配置用于深度学习的训练,很快在三年之后每一年都会有新的网络出来,能够不断地战胜其他方案获得更好的记录。
二、声音和视觉输入铺垫了构造AI世界的基础
到了2015年,谷歌和微软都实现了人类般的视觉识别能力。它是由软件写就的,在GPU上经过训练可以实现比人类更高的视觉识别能力。2015年百度也宣布他们的语音识别达到了超越人类的水平,这是非常重要的一个事件。这是第一次计算机能自己写程序,实现超过人类的水平。
视觉和语音是两个非常重要的感官输入,是人类智能的基础。现在我们已经有了一些基础的支柱,让我们能够进一步推进AI的发展,这在之前是难以想象的。如果声音和视觉的输入值不可靠的话,怎么能够有机器可以去学习,可以有人类一样的行为。我们相信这个基础已经有了,这也是为什么我们认为现在是AI时代的开始。
全世界的研究者都看到了这些结果,现在所有的AI实验室都开始使用GPU跑深度学习,这样他们也可以开始建立未来AI的基础。基本上所有的AI研究者都开始用我们的GPU。
GPU的核心是模拟物理世界,我们用GPU创建虚拟世界用于游戏、设计,用于讲故事,比如制作电影。模拟环境、模拟物理属性、模拟周围所看到的世界,构建虚拟世界的过程如同人类大脑在想象时进行的计算。因为深度学习的发展,使我们的工作进入新的阶段,人工智能。对人类智能的模拟会是我们所做的最重要的工作之一,而且我们对此非常激动。
三、GPU计算渗透到深度学习各个领域
今天也是我们第一次在中国举办GTC大会,这次很大一部分内容会是关于人工智能和深度学习。我们是一个计算公司,SDK对于我们来讲是最重要的产品,GTC是我们最重要的一场盛会。大家可以看一下过去几年的成长,这是非常了不起的增速。
今年GTC有16000名人员参加。下载我们SDK的开发人员增长了3倍,达到了40万开发人员。但最了不起的数字是深度学习开发人员在两年之内有了25倍的增长,现在下载我们的深度神经网络实验室引擎的开发人员已经增长了25倍,下载了5万5千次。
大家到底用它干什么呢?很多都是AI研究人员,他们来自于全球各地,现在所有的实验室都会使用我们的GPU平台来做自己的AI研究,有软件公司、互联网软件提供商,还有互联网公司、汽车公司、政府、医疗成像、财务、制造等公司。现在用GPU深度学习的领域是非常广的,非常了不起的。
四、大脑的运作就像GPU的计算
大家要问为什么AI研究人员选择GPU,Alex他们发现GPU的并行运算实际是非常符合深度学习网络的计算特征。那么进一步来讲,为什么GPU对深度学习来讲是非常适合的工具呢?我想给大家讲一个不是那么严肃的例子说明一下为什么GPU非常重要。
大脑就像一个GPU。比如我让大家想象乒乓球,大家闭上眼睛,你们大脑会形成一个几个人打乒乓球的图像,如果让大家想象功夫熊猫,那么脑子里会出现是类似的功夫熊猫图像。所以我们的大脑在思考时会生成一些图片。反过来,GPU的构架也像大脑一样,它不是由一个处理器进行序列的运算,我们的GPU有上千个处理器,非常小的处理器组合在一起来共同解决问题,这上千个处理器会进行数学计算、互相连接、分享信息,最终能够解决一个很大的问题,就好像是我们的大脑一样。所以说大脑就像GPU,因为大脑可以产生图片,而GPU也像人的大脑一样,所以有可能这种新的计算模式、新的计算模型可以解决虚拟现实的问题,它确实是非常适合GPU的。
深度学习是一种新的计算模式,它会涉及软件的方方面面。深度学习首先要设计一个网络并且对网络进行训练,针对一个网络的训练需要几十亿甚至更多的操作,涉及上百万甚至有更多的数据,通过这些数据对网络进行训练,需要很长的时间。如果没有一个GPU,这个过程可能需要好几个月,但GPU把这个时间压缩到几天内,这也是为什么GPU能够帮助大家更好地解决问题。
五、寻找比摩尔定律进化得更快的计算模式
训练是深度学习的一个基础,这个网络有了之后,你希望运用这个网络来进行预测,进行推理,进行归类,要对一个信息进行推理,比如有几十亿人每天在网上问很多的问题,有可能是图片,文字,语音,将来有可能是视频这种形式。在数据中心当中GPU推理能够非常快地响应。所以深度学习的第一部分是训练,第二部分是推理。
深度学习的第三部分,有些人叫IoT,智能设备、智能终端,也许是摄像头、汽车、机器人,也许是话筒,这样互联设备就变成了智能设备。物联网需要有AI进行驱动,需要深度神经网络进行驱动,大量的智能终端根本目标是需要去识别去归类进行交互,要快要准确,并且尽量在低功耗状态下实现所有这些功能。
在接下来这些时间,软件的开发会和以前不一样,我们运行软件的方法也会不一样,在上面的运算也会不一样,很多设备上要运行什么东西会不一样,所以深度学习将会影响到到计算的各个方面。
现在我们看一下训练,首先我们应该意识到训练的复杂性。前面提到了训练可能是几十亿甚至万亿的运算,模型越大数据越多,结果就会越准确,数据多,加上大模型、大的计算量将会带来深度学习更好的结果,这是非常根本的、非常重要的。
微软有一个叫ResNet的识别网络,如果跟AlexNet比较,AlexNet神经网络是8层,总计算量是1.4G的浮点运算,错误率是16%。8层和1.4G,错误率是16%,意味着什么?这是当时最好的。当时计算视觉专家研发的算法大部分错误率可能比16%更高,这说明用传统计算视觉方式的局限性很大,准确率没有那么高。
如果通过深度学习,我们在过去几年中可以实现3.5%的错误率,3.5%这是在几百万的图像当中进行测试152层的一个网络,几年之前只有8层,现在是152层,总共的计算能力是22.6G/flps,这是18倍的增长,这就表明了深度学习存在的问题。三年之内深度学习的计算负载增长了18倍,这比摩尔定律快很多。
所以问题变得越来越复杂,越来越难,但是计算的能力却没有相应速度的增长,这也是为什么整个行业都开始寻找新的计算模式,为他们都开始来考虑使用GPU计算。
另一个案例更加惊人,是关于语音识别。语音识别是自然语言理解的基础,自然语言理解也是智能的基础。这是百度吴恩达的实验室的工作,2014年有2500万的参数在这个模型当中,训练的材料是7000小时的语料8%的错误率。2015年的训练数据是此前的2倍,深度学习网络是原来的4倍大,2倍的数据量,4倍的网络复杂性,实现的错误率是5%,就在1年之内百度的DPS错误率降至了40%左右。但是需要付出什么样的代价?就是计算量的增长。
深度学习的方法花了这么长的时间才真正出现,因为这样的方法从计算条件来说是没有办法实现的,此前没有任何计算机可以对这样的网络进行训练,直到GPU出现用于深度学习的出现。这是我讲的为什么我们对这样新的计算模式非常振奋,为什么现在在我们这个计算行业当中这个时刻非常重要。
同时这个趋势在未来还会继续,大家要记住我们现在还是5%的错误率,我们希望是0%的错误率。每个人的声音都可以被识别,甚至是做得更好,可以去理解词的语义,所以我们还有很多更大的计算需求。
六、AI会自上而下地改变计算系统
Pascal是我们针对深度学习进行优化的GPU架构。Pascal的处理器是真正的奇迹,Pascal是一个全新的架构,用立体的晶体管制成,用立体的封装,用3D的堆栈,所有这些使得我们的Pascal架构实现了巨大的性能提升,新的指令级和新的制造制成、新的封装方式,以及新的互联连接方式把多个GPU连到一起,这样它们可以做一个团队来开展工作。我们花了3年的时间,1万个人年的投入,完成了这项我们自己史上最大的工作。
我们也认识到处理器还只是开始。在AI计算这块有这样一个新的计算模式,计算系统架构也会发生变化,处理器的设计会发生变化,算法会发生变化,我们开发软件的方式会发生变化,系统的设计也会发生变化。
我们有一个新的超级计算机,在一个盒子的大小之内,这就是叫DGX-1,替代了大约250台服务器,整个数据中心都缩成了一个小盒子的大小。这个超级计算机完全是重新设计的。看一下我们处理器的成就再加上DGX-1,使得我们在一年之内的性能有65倍的提高。相比较这个Alex第一次用我们GPU来训练他的网络的时候,这是65倍的提高。这比摩尔定律的速度要快很多,比整个半导体的发展要快很多,比任何其他的在计算的进步方面要快很多。
全部0条评论
快来发表一下你的评论吧 !