人工智能的又一个微小进步_麒麟970：人工智能芯片NPU_亲测Mate10手机麒麟970性能

杨桂花 2017-12-28 3054

人工智能

635人已加入

描述

人工智能的又一个微小进步

人工智能时代是信息化时代的延续和新生，今天在这个领域的每个微小的进步都会累积起来，直到再为我们推开一扇伟大时代的大门。

人类在出生时近1000亿个大脑神经元就已经产生和分化好，并且处在它们该存在的位置，等着建立神经网络。这时候的神经元还没有多少触突，相互之间也没有多少链接，新生儿的神经触突数不到成年人的三分之一。在婴幼儿的成长发育过程中，神经元迅速伸出触突，彼此建立起非常复杂的链接，相连的神经元可以传递电和化学信号，接近三岁的时候，触突的数量达到顶峰，此时的数量是成人的二倍，这段时间也正是人类学习和认知最快的时期，我们基本的生存技能，比如语言、图像识别和分类、运动都要在这个时候建立起来。此后的时间里，大脑不断优化和修剪神经元的链接，让信息的处理更加高效。在神经网络的建立过程中，链接的建立是随机的，但是修剪不是随机的，大脑不断根据外界信息和反馈来完成。最终形成的神经网络复杂且能高效处理数据，即便是相同环境里成长起来的同卵双胞胎也会有完全不同的两个大脑。

模仿生物神经系统建立的神经计算网络，基本原理就是一层一层处理和过滤信息，每一层的基本运算都很简单，无非是用加法和乘法来完成矩阵运算，但是运算中的各种参数因子是个未知数，只能让神经网络通过大量的数据来自己学习，这个学习的过程和孩子学习识图是一样的，大量各种形态的图像数据输入，对最终输出做出纠正，一旦发现输出错误就回退尝试新的参数设定，直到找到复合要求的输出。所以神经网络只关注于问题「可解」，并不强调「最优解」，每次解决和处理问题，都可以进一步优化网络参数，让网络适应更复杂的数据输入。

一直到2016年，GoogleDeepmind团队的AlphaGo战胜了职业九段李世石，才在世界范围内掀起了对人工神经网络的关注。这是一场彻底的胜利，AlphaGo的研发者并不懂围棋，打开AlphaGo程序也没人读得懂里面天书一样的各种参数，AlphaGo完全是靠自己学习围棋来达到了战胜人类的能力。最初的AlphaGo以CPU+GPU为运算单元，随着运算量的增加，GPU毕竟不是专为神经网络计算而设计，Google为了提升效率而自行设计了计算单元TPU。TPU是专为深度学习框架TensorFlow而定制的，改用TPU的AlphaGo提升更快，仅靠单机4个TPU就在随后的比赛里碾压了所有人类顶级棋手。

如果你手上有华为的Mate10或Mate10Pro，你可以试试看打开照相机，如果你把相机对准一个人，那么预览画面的左下角就会出现一个「人」的小图标；如果你对准植物，就会出现一个植物的小图标。这是因为华为这一代的手机芯片麒麟970已经内置了人工智能的运算单元NPU，让手机有了对图像场景的识别能力。手机上的NPU和Google的TPU在原理上是类似的，但是更强调功耗控制。华为的工程师在实验室里使用机器学习训练电脑识别图形图像，然后把训练好的参数灌入手机系统，当手机打开照相机时，照相系统就会实时调用NPU来分析图像场景。如果没有NPU参与，仅靠手机的CPU或GPU，这个过程的耗时是无法忍受的，借助这个专为卷积算法而设计的NPU，Mate10系列手机可以近乎于实时地感知到当前拍照的场景，以便对拍照进行优化。Mate10现在已经可以认识十多个场景，比如拍人、拍蓝天、拍植物、拍食物……新的智能识别功能还可以在今后的软件升级中加入。

Mate10是第一次把人工神经网络计算引入手机，目前能够实现的功能还主要集中在图像识别和处理上，相对于对人工智能的巨大想象空间，目前的这一步无比微小。如果把2016年AlphaGo的胜利算作人工智能纪元的元年，麒麟970带给Mate10的这一步只是在手机这种便携式设备上的第一次实用性的尝试，未来可以承载的想象空间无比巨大。1969年阿姆斯特朗在月球的表面留下了人类的第一个清晰的脚步，也正是在那一年，机器学习的构思在人类的头脑中初步成型。月球上的一小步看起来是那么不起眼，但为了实现这一步，从1961年5月25日启动阿波罗计划到1972年12月计划结束，除美国航空航天宇航中心外，一共有120所高等学校、20000家工厂、400万人投入到这个行动中，累积花费250亿美元，考虑通货膨胀，这笔投入在今天超过千亿美元。但是这些投入不是白白花掉的，阿波罗计划结束，为这项计划而诞生的各项发明和技术推开了人类信息时代的大门。人工智能时代是信息化时代的延续和新生，今天在这个领域的每个微小的进步都会累积起来，直到再为我们推开一扇伟大时代的大门。

作为一款为手机设计的系统级芯片（SystemOnChip，即SoC），麒麟970自然包含了常规的手机SoC该有的部件，比如CPU、GPU、ISP、DSP、通讯基带，但和同类产品相比，麒麟970又多了一个所有同类产品都没有的东西——一颗为人工智能运算专门设计的NPU。

下面我们就SoC的各个部件出发，全面地了解一下麒麟970。

CPU、GPU：重点是降功耗

CPU方面，麒麟970的参数相比麒麟960基本没有任何变化，依然是8颗核心，其中4颗为高性能的ARM公版A73架构，最高主频2.4GHz（麒麟960是2.36GHz），4颗位低功耗的ARM公版A53架构，最高主频1.8GHz（麒麟960是1.84GHz）。有些遗憾的是，麒麟970并没有用上ARM在今年5月发布的新一代Cortex-A75、Cortex-A55架构以及为AI相关运算优化的DynamiIQ设计（麒麟970选择了另一种方法来提高AI运算）。当然了，考虑到A75和A55的发布时间、设计的复杂程度，麒麟970没用上也是可以理解的。

华为表示，表示麒麟970的能耗比提升了20%（主要得益于全新的10纳米制程），至于实际的性能表现，不出意外的话，麒麟970应该和麒麟960处于同一段位，不会有非常明显的提升。当然，横向来看的话，麒麟970的CPU性能没提升其实不是什么大问题。从GeekBench4等跑分软件的得分上看，麒麟960的分数和高通骁龙835、三星Exynos8895基本处于同一水准，明显强于联发科HelioX30。因此，即使麒麟970的CPU性能不变，也依然是Android阵营里移动SoC的顶级水准，只是不再像麒麟960发布时那么领先。

相比起CPU上的保守，麒麟970在GPU上的「诚意」要显得更足一些。

首先，麒麟970则用上了ARM在今年5月刚刚发布的Mali-G72架构，理论性能相比麒麟960上的Mali-G71有所提升（ARM的官方说法是相比G71性能提高20%，功耗比提升25%）。此外，在核心数上，麒麟970的GPU也从麒麟960的8核增加到了12核。

华为表示，相比起麒麟960，麒麟970的性能有20%的提升，并且能效比提升了50%。照理说，由于麒麟970的GPU核心架构比麒麟960更先进，核心数还多了50%，并且制程更先进，GPU性能提升的幅度应该远不止20%。之所以出现这种情况，很可能是华为将麒麟970的GPU主频压得比较低，从而更好地降低功耗（于是就有了提升幅度高达50%的能效比）。

实际的表现也印证了我们的猜测，根据现场的介绍，麒麟970的Mali-G72最高主频为700MHz，相比麒麟960的900MHz（部分场景下会飙到1000MHz左右）有明显的下降，这种「多核+低频」的策略让麒麟970在性能有一定提升的同时，功耗得以大幅度降低。

通讯基带：比「千兆LTE」更快

作为一家通讯行业有着多年积累的公司，华为海思在通讯基带上有着深厚的「家底」，特别是去年的麒麟960，直接在SoC中集成了支持LTECat.12/13的Balong750基带（最大下行速度600Mbps，上行150Mbps），并且支持CDMA网络，丝毫不逊色同期的高通骁龙820、821。

在麒麟970上，华为海思更进一步，直接大跨步到了下行LTECat.18（上行最高Cat.13），最高下载速度飙到了1.2Gbps，也就是比之前业界最快、骁龙835和Exynos8895「千兆LTE」还要再快上200Mbps。

麒麟970还终于支持了在同时使用两张SIM卡时，主副卡同时用4G（上一代麒麟960的副卡只能支持3G），任意一张卡都可以使用VoLTE通话。此外，麒麟970还特别针对高铁时的使用做了优化，信号更稳定，减少掉线。

不过话还是要说回来，虽然麒麟970的通讯基带的确是厉害，但和骁龙835、Exynos8895等支持千兆LTE的SoC一样，普通用户想要真正体验到这种超高速LTE网络，还得过上相当一段时间。

ISP、DSP、Codec、协处理器

ISP的全称是ImageSignalProcessor（图像信号处理器），主要功能是处理相机传感器中收集到的数据。

麒麟970的ISP主要是一些「常规升级」，依然是双核设计，拥有更快的速度，更快地对焦，更优秀的降噪效果，并且对运动图像的捕捉做了优化。另外，针对目前很火的人像拍摄，麒麟970的ISP进行针对性的优化，可以根据不同肤色、帽子、眼睛、口罩、遮挡、侧脸等多种复杂的人脸场景进行优化，改善了人像的拍照效果。

在DSP、配套Codec等方面，麒麟970也有所提升，其中配套的音频Codec可以支持32bit/384k的音频解码，过去几代华为高端机（Mate、P系列）上表现乏善可陈的内放音质，有望在麒麟970这代产品上获得明显的提升，当然前提是Mate10和P11系列还能保留3.5毫米耳机插孔。

另外，麒麟970依然搭载了i7协处理器（和牙膏厂的i7没啥关系），而inSE（integratedsecureelement）和TEE安全引擎，在麒麟970上也都在。

在总线架构上，不出意外的话，麒麟970采用的应该是和960相同的CCI-550。

10纳米制程，比骁龙835还多的55亿个晶体管

制程上，不出意外，麒麟970用上了台积电（TSMC）最新的10纳米工艺，这应该是继苹果A10X、联发科HelioX30之后，第三款采用台积电10纳米制程的移动SoC。

通常来说，在芯片晶体管数量相同的情况下，更先进的制程可以降低芯片的核心面积，有助于降低成本，并且更加有效地控制发热和功耗。根据华为提供的数据，台积电的10纳米制程可以降低20%的能耗，将芯片核心面积缩小40%。

不过有趣的是，麒麟970的核心面积并没有因为制程的进步而缩小，反而比麒麟960还要略大，这是因为麒麟970集成了高达55亿个晶体管，比麒麟960多出了15亿。作为对比，苹果的A11Bionic芯片有43亿个晶体管，高通骁龙835有31亿个。

需要说明的是，虽然晶体管数量对性能有一定的影响，并且通常是越多越好，但在内部部件众多的、各家产品架构甚至内部组件都不太一样（比如A11Bionic没有集成通讯基带和专门的NPU）的移动SoC中，我们是无法简单地用晶体管数量来判断性能的。

NPU：首款内置在手机SoC中的人工智能芯片

终于到了麒麟970最特别的部分——NPU。

NPU的全称是Neural-networkProcessingUnit，也就是神经网络处理单元。关于这颗NPU的功能，大家可以简单理解为专门高效地进行AI相关计算定制的处理器，就像GPU之于图形处理相关的计算，ISP之于成像相关的计算。

传统的CPU（包括x86和ARM）和GPU也是可以用来做深度学习计算的，但由于它们本身并不是专门为深度学习定制的，效率并不高。而麒麟970的这颗NPU采用了来自寒武纪（Cambricon）的IP，专门为深度学习而定制，FP16性能达到了1.92TFLOP，差不多是麒麟960的3倍（0.6TFLOP左右）。

在月初德国柏林的发布会上，余承东展示了一张在进行AI运算时，NPU和CPU、GPU的对比。

可以看到，性能上，NPU是CPU的25倍，GPU的6.25倍（25/4），能效比上，NPU更是达到了CPU的50倍，GPU的6.25倍（50/8）。

在这个NPU的基础上，华为打造了HiAI移动计算架构，大致的原理是通过一个统一的资源管理器，充分调用CPU、GPU、ISP、DSP、NPU等部分，app开发者可以通过使用这个架构，提高app中和AI相关的应用的处理效率（官方数据是25倍的性能，50倍的能效优势）。

在现场的演示中，华为展示了在进行照片识别时，麒麟970相比其他旗舰机具备明显的优势。

根据华为提供的数据，在包括NPU在内的HiAI架构的加持下，麒麟970每分钟可以识别约2000张，iPhone8Plus可以识别889张，iPhone7Plus为487张，三星GalaxyS8只有95张（注：测试过程中，iPhone应该是调用了GPU，三星S8应该只是在用骁龙835的CPU在跑）。

除了单纯在术层面的「秀肌肉」，发布会上，华为还展示了麒麟970的AI能力在日常生活中的实际应用，具体有下面几个。

第一个功能叫做「慧眼」。麒麟970可以脱离网络限制，直接在本地对物体进行精确地识别，现场的展示中，华为把葡萄、苹果等物体摆在搭载麒麟970的原型机之前，手机可以准确地完成识别，并根据识别结果计算出对应的卡路里。

第二个是AI降噪。大致的原理是通过深度学习算法，从而更有效地过滤周围环境的噪音。这个功能最适合的使用场景之一就是在车内等嘈杂的环境中进行语音唤醒，华为表示，搭载麒麟970的手机（应该就是Mate10和Mate10Pro了）在车载场景下的语音识别率可以从80%提升到92%。

第三个功能是AI美颜。这个功能和之前美图在部分手机上的美颜技术类似，都是自动检测人脸并根据机内算法进行美颜，不过有了麒麟970相关的AI优化，可以把这个美颜过程做得更加快速和精确。

第四个功能是智能自动回复及情绪识别。麒麟970能够对文本的内容进行提取，并根据文本内容智能地进行回复和提醒，比如说聊天中输入文字「今天发工资了」，手机可以自动联想出开心的表情，输入「敦刻尔克」，手机可以自动推荐附近影院的观影信息。类似的功能华为在荣耀Magic上就已经尝试过，在麒麟970的硬件平台下，理论上可以做得更加快速和智能。

亲测Mate10手机麒麟970性能：优质通信表现绝非偶然

Mate10系列手机能得到用户的好评并不令人意外，实际上在最新发布的中国移动2017年第二期终端质量报告中，华为Mate10Pro就名列3000元以上机型综合评测排行榜的第一名，把三星Note8和苹果iPhoneX都丢在了身后，Mate10则名列第四名。这个报告是由中国移动终端终端实验室完成的，综合考虑了手机产品的通信能力、多媒体能力、产品可用性、用户口碑等四大类指标，有很高的参考价值。

其实与上市时间相近的同档位产品相比，Mate10系列手机最为独特的就是内置了一颗麒麟970芯片。麒麟970是华为首个人工智能移动计算平台，也是全球首个搭载专用神经网络处理单元的AI手机芯片。这款芯片采用了TSMC10nm制造工艺，支持目前全球最高的通信规格LTECat.18/Cat.13，峰值下载速率可达1.2Gbps，这在全球也是首屈一指的。在笔者近两周的观察中，重点关注的正是Mate10或者说麒麟970的通信能力表现。

这两年运营商一直在尝试把部分5G技术超前引入现网，将4G网络提升为4.5G网络，让用户获得更好的体验。不过要想体验到其中的好处，还要有相应的手机终端来配合。麒麟970芯片是华为颇有前瞻性的一款终端芯片，不仅支持全球最高的通信规格LTECat.18/Cat.13，还支持多种多样已经商用或即将商用的4.5G技术。所以Mate10手机用户完全可以放心，运营商近期做的任何网络升级都可以通过Mate10在第一时间体验到。

在之前提到的中国移动2017年第二期终端质量报告中，还有一个手机芯片的通信能力排行榜。考虑高清语音通话质量和下载速率，Mate10上采用麒麟970芯片综合排名第一，这些也说明，Mate10用户对这款手机的良好体验绝非主观臆测。

打开APP阅读更多精彩内容