华为Mate 40系列手机中国区的发布会今天刚刚在上海举办,其中最引人注目的部分自然就是在这个特殊历史时期出现的海思麒麟(Kirin)9000 SoC了。华为照例在手机发布会前,小规模召开了一次麒麟芯片媒体沟通会。
有关Mate 40系列手机本身,我将另外撰文,与本文同期发布。本文主要探讨麒麟9000这颗芯片——虽然电子工程专辑此前已经在这款手机的全球发布会期间,对这颗芯片做了简单的探讨,我还是希望能够更全面地来呈现这颗,未来回看可能具有历史意义的SoC。
本文篇幅较长,主体上分成5个部分。各位可按照自己感兴趣的话题,选择性阅读:
(1)配置总览
(2)CPU
(3)GPU
(4)NPU(与ISP)
(5)5G
153亿个晶体管,配置一览
麒麟9000系列SoC主要包含两个型号,分别是麒麟9000和麒麟9000E。这两者的主要区别是9000E的GPU少两个核心,以及NPU少一个大核。猜测这可能会是个更经济的做法,因为153亿个晶体管实在是很大的规模:苹果A14也“不过”118亿晶体管(当然A14不带modem)。其中这次的Mali G78 GPU铺满24个核心的实施方案,算是巨大规模了。又还是初代5nm工艺,考虑到良率问题——通过binning的方式,在产线上划分出一个9000E,显然会更经济。
首先当然还是看一看麒麟9000的主要配置情况:
CPU:1x Cortex-A77 3.13GHz,3x Cortex-A77 2.56GHz,4x Cortex-A55 2.05GHz
GPU:Mali G78MP24(9000E为MP22)
NPU:Da Vinci,2x Big-Core,1x Tiny-Core(9000E的Big-Core是1个)
内存:LPDDR4X-2133/LPDDR5-2750
Modem:Balong 5000(Sub-6G,下行双载波4.6Gbps,上行双载波2.5Gbps)
ISP:6.0,Quad pipeline,3A(AE/AWB/AF)处理能力提升100%,处理管线速度提升50%
其他:HiFi Audio,4K HDR Video,Mobile Secure Processor
工艺:台积电5nm(N5?)
这其中比较令人在意的有几点,其一是CPU部分用的是Cortex-A77。已经上市半年多的骁龙865用的就是A77。Arm实则已经发布了Cortex-A78和X1。传言未来的高通骁龙875和Exynos 1080都会采用Cortex-A78。起码在新IP的采用上,麒麟芯片晚了一步。另外GPU部分,华为直接跳过了Mali G77,转而采用Mali G78。这些都会在下文做探讨。
除此之外,今年华为似乎格外在意AI的应用——虽然现在看来Android NN生态(以及华为HiAI)建设仍然比较初级,华为也仍然期望在拍照之外,让算力在行业内领先的NPU有更多的用武之地。
尤为值得一提的是,华为今年公布相关麒麟SoC与竞品的对比数据,华为Fellow艾伟在台上呈现的内容,都更多的出现了“效率”和“能效”,而不再只是单纯的性能。这一点实则也是麒麟SoC已经完全步入成熟的依据:电子工程专辑的微信服务号很快会发布一篇海思手机SoC从K3V2时期开始,至麒麟9000这8年来的发展历程总结文章。这8年是非常典型的由青涩走向成熟,从差强人意迈向一流的过程。
CPU:一次常规升级
麒麟9000 CPU部分是1+3+4组合结构,这种组合方法原本也是DynamIQ灵活性的体现。今年年初的麒麟820 5G用的也是这种组合方式,高通也已经沿用了两代。最大的那颗Cortex-A77核心3.13GHz主频是比骁龙865+(3.1GHz)还要略高一点点的,比去年Kirin 990大核A76的2.86GHz也高了9.4%。Cache分配情况未知。
在提升方面,华为这次并未与前代产品比较,而是说CPU性能比骁龙865+领先10%,能效则领先25%——基于Geekbench 5的跑分。从Geekbench 5数据库来看,骁龙865+相比麒麟990的CPU多核性能领先了大约14-18%。这样算来,麒麟9000比上一代麒麟990,CPU性能提升大约在25-30%左右。
当然这个对比是不严谨的,Geekbench 5用于反映CPU的绝对性能可能会有偏差。不过Arm官方早前发布A77的时候就提到,Cortex-A77相比A76有着20-25%的IPC提升,加上麒麟9000的频率提升,麒麟9000 CPU整体上25-30%的性能提升是在情理之中的。能效部分与前代很难直接比较,而且骁龙865+作为865的提频版本,在效率上本来就会妥协——麒麟9000 CPU效率必然是提升的,其中还需考虑到5nm工艺带来的红利,与上代产品相较的提升幅度值得做进一步观察。
需要指出的是,华为从麒麟980开始越来越关注存储子系统的提升——980配上了DSU 4MB L3大缓存;到了麒麟990,虽然CPU的整体架构和内存支持都没变,但开始采用新的LLC:system cache(下图中间部分,系统级别的cache),并降低存储子系统的整体延迟,令麒麟990的性能表现仍然比980有提升,而且功耗还更低——这一点在当时还是非常惊艳的。
Kirin 990 Die shot source: TechInsights - Labelling & Custom contrast: AnandTech
今年麒麟9000似乎将system cache提升到了8MB(艾伟在说NPU环节的Smart Cache 2.0时提到了这一点,“相对直接访问内存来说,带宽提升了一倍,能效提升15%”,但不确定是否就是指整个系统LLC的system cache),这应该是相比上代容量的翻番了。实际上高通和苹果此前也已经开始注重这个层级的cache布局。这部分理论上可以在SoC上服务于多个IP,不仅用于提升性能,而且也提升了能效。
此外,LPDDR5支持实则也会对手机的整体系统性能有提升帮助,骁龙865机型已经享受了这部分红利。相比麒麟990,麒麟9000在CPU方面的确是一次比较大的提升。不过也需要在意,今年年中发布的Cortex-A78能做到与A77相同功耗情况下持续性能20%的提升;预计晚些时间发布的骁龙875还是可以超过麒麟9000的——当然这是一个常态,尤其随着华为的手机SoC步入成熟,每年不同SoC厂商的迭代,都是在不同时间点此消彼长的。
GPU:秒杀高通Adreno?
麒麟9000的GPU部分是非常值得一说的。去年麒麟990并未按照我们的预期,采用Arm Mali G77,而是继续采用麒麟980时期的G76。此前我曾撰文提到过,高通如今正逐渐在GPU部分丢失往常的优势:如果Mali G77能够按照Arm预期的那样,那么Mali GPU很可能实现对Adreno GPU性能和效率的同时追平。
悲剧的是,华为并未采用G77。而实施G77的三星Exynos 990(Mali G77MP11)与联发科天玑1000(MP9),在规模上都不够大——前者多方面的问题还相当一言难尽。这就让我们无从了解,G77到底是个什么水平。加上骁龙865的Adreno 640小小发挥了一下,在不少测试中的效率表现都和苹果相差不大了(性能仍有差距),Arm Mali阵营这边就急需一款产品来证明GPU的实际水准。
麒麟9000直接跳过G77,用上了Mali G78。华为给出的数据是,相比骁龙865+,麒麟9000的GPU性能领先52%,能效领先50%。从华为的PPT来看,对比的是GFXbench 5.0 Aztec Ruins Vulkan项目(不过极有可能,性能提升和效率提升的测试条件是不同的)。无论如何,这两个分数都是相当巨大的领先,这使得今年Mate 40系列手机的游戏表现非常令人期待。
单纯从这个跑分来看,可能已经达到了苹果A13或者A14的水平——余承东在手机发布会现场列出了iPhone 12 Pro与Mate 40 Pro+的GPU跑分性能,两者似乎的确已经是相近水平:虽然目前还不清楚这是峰值性能还是持续性能,以及并未有能效比较的数据。
华为自己的实际游戏性能测试是,“某国内TOP MOBA类游戏”满帧状态的能效,平均比“友商”(也就是骁龙865 Plus,三星Galaxy Note 20 Ultra)优秀20%;包括《王者荣耀》《和平精英》《明日之后》等在内的多款主流游戏,系统能效比都优于骁龙865+——这似乎还是华为首次在反复提GPU的“能效”,而不单纯是性能:表明这次的底气比以往都更充足。
事实上,Mali G78相比G77并没有发生太大的变化。但G77是首次换用了Valhall架构——算是一次大变动,G78则是个改款。仍然建议有兴趣的同学阅读此前有关Mali G77的文章《Arm新版Mali GPU简析:这次终于赶超高通和苹果?》。G77相比G76,性能密度提升30%,能效提升30%;主要是G77的shader核心换用新的执行引擎,16-wide warp执行模型,合并为一个执行引擎,提升ALU利用率。
因为此前G76已经有了一次Arm Mali阵营的大跃进,所以G77就纸面数字来看还是比较优秀的。而G78,Arm的数字是结合微架构与制造工艺的双重改进,相较G77有25%的性能提升。相同工艺情况下,性能密度提升15%(相同面积下,获得15%性能提升);能效提升10%。
Mali G78支持的最大核心数目提升到了24个核心,不知该说Arm Mali这种增多核心的路线是种进步还是退步——麒麟9000显然拉满了这个数字,算是G78的顶配了(9000E则为22个核心),从去年开始似乎华为已经不再走过去那种高频少核的路线了。
G78的执行核心与前代相比没什么变化,就是延续了Valhall架构的特色(16-wide,合并为一个引擎);shader核心整体上也没什么变化。其最大的变化在于从整个GPU的全局频域(frequency domain)变为两级结构,最顶级的共享GPU模块为一个频域,shader核心为一个频域——也就是GPU内部不同步的时钟域,shader核心可以跑在不同的频率下。只是不知道麒麟9000是否实施了这个方案。
这事实上解决了Mali GPU一个很大的问题:要在屏幕上推更多数量的多边形时,以前只能全面推高运行频率。如今市面上出现的新游戏普遍是几何处理工作偏重的,将tiler和几何引擎运行频率解耦,就能够解决吞吐不平衡的问题。另外就是,理论上能效也能得到改进——只不过要增加额外的电压域实施,也就增加了系统的成本。除此之外,G78的FMA引擎做了翻新,主要是乘法器结构变化,以及FP32和FP16路径做了隔离,据说是以面积来换取30%的节能。
大概也是因为GPU性能和效率水平真的上来了,艾伟今年谈了不少游戏画质相关的东西。而且事实上,在《原神》这类游戏开始出现在手机之上,更多原本属于PC和主机的游戏体验、特效,都开始向移动平台迁移。
包括SSR屏幕空间反射、MSAA/TAA抗锯齿,以及动态模糊、体积光+实时阴影等更好的游戏画质实现上,华为宣传的是麒麟9000在更好地实现这些特效的基础上,同时做到高帧率,以及更高的效率——如上图所示,是对比某尚未发布的游戏,在开启HDR、MSAA抗锯齿等特性后,稳定60fps运行,以及实现比“友商芯片平台”(这个对比对象未知)高了一倍的效率(图中中间mW/frame数值)。这其中应该也有AI的辅助:早年Kirin 970时期起,通过机器学习来达成针对特定游戏、特定设备的最优化DVFS调度。
所以Mate 40的GPU实际表现,的确令人十分期待。骁龙875的GPU恐怕会面临比较大的压力。
NPU:现在有什么用?
麒麟9000的NPU升级到达芬奇架构2.0,“NPU算力翻倍”。当然我们不清楚达芬奇架构2.0相比1.0,到底改了些什么。比较抽象的形容是“MAC规模翻倍,卷积网络性能翻倍,核间通讯带宽翻番”。所以AI Benchmark(ETH AI Benchmark V4.0)之类的拿“全球第一”也并不奇怪。另外华为这次特别提到了Int8数据类型的性能与能效。
艾伟说AI普及后,手机终端越来越多地需要做8位整型数据计算,而不是浮点FP16。用ResNet50网络来跑,麒麟9000的Int8性能较骁龙865+高出60%,能效则高了150%——这应该和高通的AI Engine始终不上专核,而主要靠强化DSP与异构计算有关。
SoC层面另外值得一提的就是前文已经提到过的system cache。由于这个末端cache容量增大,很多情况下各IP模块就不需要再去调用DRAM。由于带宽的成倍增加,以及能效的提升,NPU与其他处理器工作的实时性才有更好的保障。
往年的NPU介绍,大致上也就停留在这个程度了。今年华为似乎急着想要证明,NPU究竟能用来做什么。事实上,Android阵营的AI生态发展得并没有那么高速,即便华为始终在说HiAI支持的人工智能网络算子是业界最多。但华为在这个生态上的建设,真可谓不遗余力。这次艾伟主要列举了NPU的三个用处:AI视频处理、AI拍视频、AI AR。
视频逐帧卡通化处理
首先是AI视频处理。2017年的麒麟970时代,华为演示2000张照片智能识图需要60秒,而到了麒麟9000同样的识图过程只需要1秒钟。这一点带来的价值放到视频之上,就是AI实时处理复杂网络。过去针对视频中的每一帧画面,都只能执行图像分类、目标检测、语义分割、实例分割、图像编辑等其中的一种操作;但现在针对每一帧,都能执行以上的所有操作。
到实际应用里,华为现场演示的是视频的实时卡通化:针对一段视频,每一帧都能做轮廓提取、纹理优化和区域分割,并实现每一帧的卡通化。我在现场演示中看到,这个过程的确是完全实时的:通过摄像头拍摄的取景画面就实时呈现出了画面的卡通化——而不是延后处理——以前我们也见过将画面卡通化的app,但那些要么只能处理照片,要么就是对视频有延后处理的长时间等待过程。
另外,除了这种娱乐向的应用,AI视频增强特性中的一个很有意义的应用是将低分辨率的视频upscale成高分辨率——整个过程实现的是每帧画面的去噪、锐化、超分、色彩增强。其中超分,是能够将原画面实现2-3倍的分辨率提升的,比如480p分辨率的视频可以upscale至1080p。起码华为现场演示的效果很不错。
针对一些片源本身就不清楚,或者由于网络环境关系无法观看高分辨率视频的情况,这种在本地将视频“超分”为高分辨率的解决方案是的确能够提升观看体验的。不过这个方案仍然需要第三方播放器做出支持,华为提到后续会在HMS中通过AV Pipeline开放——HMS此前我在介绍HarmonyOS系统时已经提过多次,HMS是可为开发者提供各种Kit和API的一个中间层。
上面谈的是AI视频处理,接着是AI拍视频。这部分华为宣传的是“业界首次实现ISP+NPU融合架构”。在拍视频时,从摄像头的CIS获取到画面数据,随后进入ISP+NPU的融合结构里,其管线如上图所示。具体数据是如何在NPU与ISP两个硬件之间流动的,就不得而知了——但这两者间一定是有分工的,比如常规的3A(自动白平衡、自动曝光、自动对焦)肯定由ISP执行,而去噪之类的操作可以交给NPU。此前静态照片拍摄,AI如何介入ISP的流程,甚至包括自动白平衡这类传统项亦可由AI单元去完成,谷歌AI Blog就分享过很多这方面的技术细节。
但“首次”实现ISP+NPU的融合,细算起来或许还有其他竞争对手。除了iPhone在照片拍摄时如今也应当有这样的流程;比较具有代表性的是谷歌Pixel手机。
Pixel从二代起加入Pixel Visual Core(或Visual Neural Core),这是个专门用作图像处理的AI硬件——只不过谷歌并不是手机SoC制造商,自己没有能力给手机的主SoC融合一个这样的单元,所以Pixel Visual Core是以独立的形式存在的。理论上它也与ISP做协同,实现Pixel拍照的过程。只不过猜测其时延会比较高(毕竟是芯片间通讯),所以谷歌做画面的AI加强,似乎始终都不曾涉及视频(最多好像也只有动态照片的AI防抖等特性)。
华为提到,麒麟9000的ISP+NPU处理时间<33ms,就相当于过去单独ISP处理摄像头拍摄的数据一样,这的确算是个性能跨越。值得一提的是,今年麒麟9000的ISP为“Kirin ISP 6.0”,包括3A处理能力的100%提升,以及Quad Pipeline扩张做到处理管线速度50%的提升——这应该也是实现AI视频拍摄整体处理时间<33ms的重要原因。所以ISP与NPU的算力堆砌在此都非常重要,iPhone 12似乎都仍然做不到AI视频拍摄的实时处理。
这一点,华为也专门在演示中做了对比。即iPhone 12 Pro相较Mate 40 Pro,暗光视频拍摄能力,在画面的细节呈现上有差距——这是后者用NPU+ISP协同工作达成的。
另外由于算力的彪悍(与包括system cache在内的通讯的高效),Mate 40也做到了视频的实时4K HDR——这里的实现层级是在SoC之上的ISP与NPU(而非CIS及堆栈的ISP,不过想必索尼CIS的高速读出技术在此也是不可或缺的)。华为宣称是“逆光HDR视频超越人眼”,达到108dB动态范围。
最后是AI+AR
实际上华为宣传的AI+AR的,本质就是做计算视觉,将手机摄像头看到的世界,通过SLAM(同步定位与地图构建)+语义理解,令AR能够识别周边的东西是什么,并且对对象距离、尺寸做测量——那么无论针对人脸做识别建模,还是对周围环境做识别建模,都能做到实时的感知;感知测量也能达到更高的精度。
艾伟说,“这个功能以前我们用软件来实现,比较耗电,花的时间也比较长。这一次,我们提供专门AR硬化的加速器模块”,“同样一个AR识别,时延降低40ms,功耗降低36mA”。
AI+AR的特性究竟能用来做什么呢?华为设想的是,手机作为信息入口,通过AI+AR,不管是人、物体,还是结构化文字,都能做到实时的识别。且在识别、测量之后,将脱敏的数据传输到云端;云端有海量数据库与知识图谱。于是“它就变成了一个新的陪伴”,“陪伴我们的一个超智慧的感知体验”。未来的一切,从单点对象到整个世界,都可将其实时数字化、识别,并与云端组合到一起。
而此间的传输过程又与5G有着不可分割的关联。
5G:合在一起,打开新世界的大门
在本文最后上价值之前,还是先来看看麒麟9000的5G modem部分。由于麒麟985 5G就已经用上了Balong 5000 modem,所以似乎这次Mate 40系列手机支持5G已经不是新鲜事了。
但华为还是展示了Mate 40一些更为细致的5G数据。包括在sub-6GHz频段下,5G SA下行双载波速率4.6GHz,上行双载波速率2.5GHz,相比骁龙865与A14+X55 modem的方案,理论峰值速率是其2倍(iPhone 12为5G单载波)。不过X55 modem实际上是支持毫米波的,但毫米波的基础设施建设或许就现在看来还没有那么及时:iPhone 12美国版支持毫米波。而实测数据,从华为自己的数据来看,Mate 40与iPhone 12还有更大的差距——这部分还是可以等一等更多评测机构的数据。
时延部分,上面这张图是在杭州一块区域内的室外测试,绿色部分是指<< span="">30ms终端到服务器的时延。这块区域的实测数据是,Mate 40 Pro有84%的在网概率是<< span="">30ms时延的,16%的概率时延在30-100ms。而从华为的数据来看,iPhone 12是刚好相反的。实际上,在4G网络之下,100-150ms时延就已经有相对流畅的游戏体验了。因此这也是5G带来的便利。
不过上面这些数据实则并不只是5G modem的问题,可能涉及到了整个RF系统以及天线,乃至手机制造商的系统设计。而且其复杂性之甚,大约还有更多的维度可以探讨。
在5G的问题上,现有5G手机用户普遍的反馈是,没有对应的使用场景,不需要那么高的吞吐与那么低的时延。延续前一个AI+AR的段落,艾伟对此的看法是:以上麒麟9000改进的每一点都有用。
当它们合在一起的时候,是打开新世界大门的时候。“以今天5G手机的发展速度,经过一个正常的换机周期,两年以后,整个存量市场超过一半会是5G手机——这还是偏保守的数据。那么应用环境变化会自然跟随发生变化。”
“就像4G时,有了3G没有的移动支付、共享经济。到5G时,我们会拥有4G所没有的实时虚拟世界,数字世界与真实世界的结合。”艾伟说,“而且这并不需要太长时间,一定是在两年以内。”看来麒麟9000是为此打下了一个基础。
原文标题:全面剖析麒麟9000:华为Mate 40碾压了谁?
文章出处:【微信公众号:传感器技术】欢迎添加关注!文章转载请注明出处。
责任编辑:haq
全部0条评论
快来发表一下你的评论吧 !