众所周知,人工智能的三大支柱是硬件、算法和数据。其中,硬件主要是指用于运行AI算法的芯片。本文主要对AI芯片的厂商进行归纳和整理。
目前针对AI设计的芯片主要分为用于服务器端(云端)和用于移动端(终端)两大类。
服务器端负责AI算法的芯片走的是超级计算机的路子,一方面要支持尽可能多的网络结构以保证算法的正确率和泛化能力;另一方面必须支持高精度浮点数运算,峰值性能至少要达到Tflops(每秒执行10^12次浮点数运算)级别,所以功耗非常大;而且为了能够提升性能必须支持阵列式结构(即可以把多块芯片组成一个计算阵列以加速运算)。
移动端的AI芯片在设计思路上有着本质的区别。首先,必须保证功耗控制在一定范围内,换言之,必须保证很高的计算能效;为了达到这个目标,移动端AI芯片的性能必然有所损失,允许一些计算精度损失,因此可以使用一些定点数运算以及网络压缩的办法来加速运算。
下面,将分别从服务器端芯片和移动端芯片两个大类进行介绍。有的厂商同时具有这两类产品,则不做严格区分。
在云端服务器这个领域,Nvidia的GPU已经成为服务器不可或缺的一部分,称其为领跑者毫不为过。有报告显示,世界上目前约有3000多家AI初创公司,大部分都采用了Nvidia提供的硬件平台。
资本市场对此给出了热烈的回应:在过去的一年中,曾经以游戏芯片见长的Nvidia股价从十几年的稳居30美元迅速飙升至120美元。2017年2月10日,英伟达发布2016年第四季度的财报显示,其营收同比增长55%,净利润达到了6.55亿美元,同比增长216%。
<img src="https://pic1.zhimg.com/v2-2e7c09381b6eea82ddebd1864adeceb0_b.png" data-rawwidth="121" data-rawheight="121" class="content_image" width="121">作为PC时代的绝对霸主,Intel已经错过了移动互联网时代,在已经到来的AI时代,也失掉了先机,但它并没有放弃,而是积极布局,准备逆袭。在云端,收购Altera之后推出了基于FPGA的专用深度学习加速卡,可以在云端使用;另外,收购Nervana,目标也是在云端。在移动端,则是收购了Movidius。下面先对Nervana进行介绍,对Movidius的介绍放在后面移动端。
<img src="https://pic2.zhimg.com/v2-2007f5781521fdbe56883f150081c37d_b.png" data-rawwidth="272" data-rawheight="71" class="content_image" width="272">Nervana创立于2014年,位于圣地亚哥的初创公司Nervana Systems已经从20家不同的投资机构那里获得了2440万美元资金,而其中一家是十分受人尊敬的德丰杰风险投资公司(Draper Fisher Jurvetson,DFJ)。
The Nervana Engine(将于2017年问世)是一个为深度学习专门定做和优化的ASIC芯片。这个方案的实现得益于一项叫做High Bandwidth Memory的新型内存技术,同时拥有高容量和高速度,提供32GB的片上储存和8TB每秒的内存访问速度。该公司目前提供一个人工智能服务“in the cloud”,他们声称这是世界上最快的且目前已被金融服务机构、医疗保健提供者和政府机构所使用的服务,他们的新型芯片将会保证Nervana云平台在未来的几年内仍保持最快的速度。
<img src="https://pic1.zhimg.com/v2-62af27a968827ec6e1db41b69c75bd00_b.png" data-rawwidth="121" data-rawheight="75" class="content_image" width="121">IBM很早以前就发布过watson,早就投入了很多的实际应用中去。除此之外,还启动了对类人脑芯片的研发,那就是TrueNorth。
TrueNorth是IBM参与DARPA的研究项目SyNapse的最新成果。SyNapse全称是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自适应可塑可伸缩电子神经系统,而SyNapse正好是突触的意思),其终极目标是开发出打破冯•诺依曼体系的硬件。
这种芯片把数字处理器当作神经元,把内存作为突触,跟传统冯诺依曼结构不一样,它的内存、CPU和通信部件是完全集成在一起。因此信息的处理完全在本地进行,而且由于本地处理的数据量并不大,传统计算机内存与CPU之间的瓶颈不复存在了。同时神经元之间可以方便快捷地相互沟通,只要接收到其他神经元发过来的脉冲(动作电位),这些神经元就会同时做动作。
2011年的时候,IBM首先推出了单核含256 个神经元,256×256 个突触和 256 个轴突的芯片原型。当时的原型已经可以处理像玩Pong游戏这样复杂的任务。不过相对来说还是比较简单,从规模上来说,这样的单核脑容量仅相当于虫脑的水平。
不过,经过3年的努力,IBM终于在复杂性和使用性方面取得了突破。4096个内核,100万个“神经元”、2.56亿个“突触”集成在直径只有几厘米的方寸(是2011年原型大小的1/16)之间,而且能耗只有不到70毫瓦。
这样的芯片能够做什么事情呢?IBM研究小组曾经利用做过DARPA 的NeoVision2 Tower数据集做过演示。它能够实时识别出用30帧每秒的正常速度拍摄自斯坦福大学胡佛塔的十字路口视频中的人、自行车、公交车、卡车等,准确率达到了80%。相比之下,一台笔记本编程完成同样的任务用时要慢100倍,能耗却是IBM芯片的1万倍。
<img src="https://pic4.zhimg.com/v2-cb1ba0b2c52ec4d0564e8c8c7cdea237_b.png" data-rawwidth="120" data-rawheight="75" class="content_image" width="120">Google在2016年宣布独立开发一种名为TPU的全新的处理系统。
TPU是专门为机器学习应用而设计的专用芯片。通过降低芯片的计算精度,减少实现每个计算操作所需的晶体管数量,从而能让芯片的每秒运行的操作个数更高,这样经过精细调优的机器学习模型就能在芯片上运行得更快,进而更快地让用户得到更智能的结果。Google将TPU加速器芯片嵌入电路板中,利用已有的硬盘PCI-E接口接入数据中心服务器中。
据Google资深副总裁Urs Holzle透露,当前Google TPU、GPU并用,这种情况仍会维持一段时间,但他表示,GPU可执行绘图运算工作,用途多元;TPU 属于ASIC,也就是专为特定用途设计的特殊规格逻辑IC,由于只执行单一工作,速度更快,但缺点是成本较高。
<img src="https://pic4.zhimg.com/v2-48e1fe07b962e795aaefca3ba59a381b_b.png" data-rawwidth="185" data-rawheight="56" class="content_image" width="185">终于有中国公司了,中文名“寒武纪”,是北京中科寒武纪科技有限公司的简称。这家公司有中科院背景,面向深度学习等人工智能关键技术进行专用芯片的研发,可用于云服务器和智能终端上的图像识别、语音识别、人脸识别等应用。
寒武纪深度学习处理器采用的指令集DianNaoYu由中国科学院计算技术研究所陈云霁、陈天石课题组提出。模拟实验表明,采用DianNaoYu指令集的寒武纪深度学习处理器相对于x86指令集的CPU有两个数量级的性能提升。
目前,寒武纪系列已包含三种原型处理器结构:
寒武纪1号(英文名DianNao,面向神经网络的原型处理器结构);
寒武纪2号(英文名DaDianNao,面向大规模神经网络);
寒武纪3号(英文名PuDianNao,面向多种机器学习算法)。
2016年推出的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备
ARM刚推出全新芯片架构DynamIQ,通过这项技术,AI的性能有望在未来三到五年内提升50倍。
ARM的新CPU架构将会通过为不同部分配置软件的方式将多个处理核心集聚在一起,这其中包括一个专门为AI算法设计的处理器。芯片厂商将可以为新处理器配置最多8个核心。同时为了能让主流AI在自己的处理器上更好地运行,ARM还将放出一系列软件库。
DynamIQ是在ARM上一代革新架构big.LITTLE基础上的一次演进,这种架构能够对同一运算设备中的大小两个核进行适当配置,以减少电池消耗。目前big.LITTLE架构已经被应用到了几乎所有智能手机的芯片上,包括用于安卓系统的高通骁龙处理器以及苹果最新一代的A10芯片。
接下来ARM推出的每一款Cortex-A系列芯片都将采用这种新技术。ARM称,与在现有芯片架构上开发出的处理器(即Cortex-A73)相比,基于DynamIQ架构开发的全新处理器有望在三到五年内使人工智能的表现增强50倍。
<img src="https://pic4.zhimg.com/v2-5c6fd59d29b619778361915da2858f4f_b.png" data-rawwidth="243" data-rawheight="104" class="content_image" width="243">2016年9月,Intel发表声明收购了Movidius。
Movidius专注于研发高性能视觉处理芯片。现任CEO是原来德州仪器OMAP部门的总经理,它的技术指导委员会也是实力强大,拥有半导体和处理器行业的元老级人物——被苹果收购的 P.A.Semi 创始人丹尼尔·多伯普尔(Daniel Dobberpuhl),卡内基梅隆大学计算机科学/计算机视觉专家金出武雄,以及前苹果 iPhone 和 iPod 部门工程副总裁、资深工程师大卫·图普曼(David Tupman)三人坐镇。
其最新一代的Myriad2视觉处理器主要由SPARC处理器作为主控制器,加上专门的DSP处理器和硬件加速电路來处理专门的视觉和图像信号。这是一款以DSP架构为基础的视觉处理器,在视觉相关的应用领域有极高的能耗比,可以将视觉计算普及到几乎所有的嵌入式系统中。
该芯片已被大量应用在Google 3D项目Tango手机、大疆无人机、FLIR智能红外摄像机、海康深眸系列摄像机、华睿智能工业相机等产品中。
<img src="https://pic4.zhimg.com/v2-c42fd5733da26981ae9b7371cc1ec53f_b.png" data-rawwidth="160" data-rawheight="65" class="content_image" width="160">CEVA是专注于DSP的IP供应商,拥有为数众多的产品线。其中,图像和计算机视觉 DSP 产品 CEVA-XM4 是第一个支持深度学习的可编程 DSP,而其发布的新一代型号 CEVA-XM6,具有更优的性能、更强大的计算能力,以及更低的耗能。
XM6 的两大新硬件功能,将帮助大多数图像处理和机器学习算法。第一个是分散-聚集,或者说是阅读一个周期中,L1 缓存到向量寄存器中的 32 地址值的能力。CDNN2 编译工具识别串行代码加载,并实现矢量化来允许这一功能,当所需的数据通过记忆结构分布时,分散-聚集提高了数据加载时间。由于 XM6 是可配置的 IP,L1 数据储存的大小/相关性在硅设计水平是可调节的,CEVA 表示,这项功能对于任意尺寸的 L1 都有效。此级用于处理的向量寄存器是宽度为 8 的 VLIW 实现器, 这样的配置才能满足要求。
第二功能称为“滑动-窗口”数据处理,这项视觉处理的特定技术已被 CEVA 申请专利。有许多方法可以处理过程或智能中的图像,通常算法将立刻使用平台所需一块或大片像素。对于智能部分,这些块的数量将重叠,导致不同区域的图像被不同的计算区域重用。CEVA 的方法是保留这些数据,从而使下一步分析所需信息量更少。
CEVA 指出,智能手机、汽车、安全和商业应用,如无人机、自动化将是主要目标。
<img src="https://pic1.zhimg.com/v2-2915b06a1fe05d4ceef37c15c5245ee8_b.png" data-rawwidth="119" data-rawheight="75" class="content_image" width="119">Eyeriss事实上是MIT的一个项目,还不是一个公司,但是因为获得了大量的媒体报道,故把它单独拿出来进行介绍。从长远来看,如果进展顺利,很可能孵化出一个新的公司。
Eyeriss是一个高效能的深度卷积神经网络(CNN)加速器硬件,该芯片内建168 个核心,专门用来部署神经网路(neural network),效能为一般行动GPU 的10 倍。其技术关键在于最小化GPU 核心和记忆体之间交换数据的频率(此运作过程通常会消耗大量的时间与能量):一般GPU 内的核心通常共享单一记忆体,但Eyeriss 的每个核心拥有属于自己的记忆体。
此外,Eyeriss 还能在将数据传送到每一个核心之前,先进行数据压缩,且每一个核心都能立即与邻近的核心直接沟通,因此若需要共享数据,核心们不需要透过主要记忆体就能传递。
目前,Eyeriss主要定位在人脸识别和语音识别,可应用在智能手机、穿戴式设备、机器人、自动驾驶车与其他物联网应用装置上。
<img src="https://pic4.zhimg.com/v2-ff73097f03a12488a665040c030cb32f_b.png" data-rawwidth="234" data-rawheight="96" class="content_image" width="234">2016年6月20日,中星微率先推出中国首款嵌入式神经网络处理器(NPU)芯片,这是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片,取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上,最高能达到98%的准确率,超过人眼的识别率。该NPU采用了“数据驱动”并行计算的架构,单颗NPU(28nm)能耗仅为400mW,极大地提升了计算能力与功耗的比例。
研发“星光智能一号”耗时三年时间。中星微集团聚集了北京、广东、天津、山西、江苏、青岛、硅谷的研发力量,采用了先进的过亿门级集成电路设计技术及超亚微米芯片制造工艺,在TSMC成功实现投片量产。
目前“星光智能一号”出货量主要集中在安防摄像领域,其中包含授权给其他安防摄像厂商部分。未来将主要向车载摄像头、无人机航拍、机器人和工业摄像机方面进行推广和应用。
<img src="https://pic4.zhimg.com/v2-a82c0e747406e227080f58f3e072f9eb_b.png" data-rawwidth="157" data-rawheight="61" class="content_image" width="157">Horizon Robotics(地平线机器人)由前百度深度学习研究院负责人余凯创办,致力于打造基于深度神经网络的人工智能“大脑”平台-包括软件和芯片,可以做到低功耗、本地化的解决环境感知、人机交互、决策控制等问题。其中,软件方面,地平线做了一套基于神经网络的OS,已经研发出分别面向自动驾驶的的“雨果”平台和智能家居的“安徒生”平台,并开始逐步落地。硬件方面,未来地平线机器人还会为这个平台设计一个芯片——NPU(Neural Processing Unit),支撑自家的OS,到那时效能会提升2-3个数量级(100-1000倍)。
地平线的最终产品不止芯片,而是一个核心控制模块,具有感知、识别、理解、控制的功能。把这个控制模块做成产品去跟合作方做集成。换句话说,地平线提供的是一个带有人工智能算法的解决方案。
商业模式上,目前会采取产品、技术加服务的方式,先把产品做出来,得到第一手的用户体验,将来再向更宽广的生态去发展。地平线并没有把自己定义为单纯的技术提供商,不会单纯的卖算法SDK或者单纯出售芯片,而是打造技术平台,来帮助用户把产品做出来。
<img src="https://pic3.zhimg.com/v2-072301834f91f5c9c8241873680dceaa_b.png" data-rawwidth="129" data-rawheight="57" class="content_image" width="129">深鉴科技由清华团队创办,其产品称作“深度学习处理单元”(Deep Processing Unit,DPU),目标是以ASIC级别的功耗,来达到优于GPU的性能,目前第一批产品基于FPGA平台。
从官方提供的数据来看,嵌入式端的产品在性能超过Nvidia TK1 的同时,功耗、售价仅为后者的1/4左右。服务器端的产品,性能接近Nvidia K40 GPU ,但功耗只有35瓦左右,售价300美元以下,不足后者的1/10。
深鉴科技着力于打造基于DPU的端到端的深度学习硬件解决方案,除了承载在硬件模块(订制的PCB板)上的DPU的芯片架构外,还打造了针对该架构的DPU压缩编译工具链SDK。
产品的应用领域分为终端和云端两类。其中嵌入式端的产品将主要应用在无人机、安防监控、机器人、AR等领域,目前已经与一家知名无人机厂商建立了合作。服务器端的产品将主要面向大型互联网公司的语音处理、图像处理等。目前也已经与国内知名互联网公司展开合作,在兼容对方现有机房的情况下,功耗降低80%,语音识别的准确率提升了5%-7%。
人工智能时代已经来临,在这个史无前例的巨大浪潮面前,有哪些公司能脱颖而出,成为新一代弄潮儿?让我们拭目以待。
全部0条评论
快来发表一下你的评论吧 !