Arm迟迟推出全新NPU系列的原因是什么

电子说

1.3w人已加入

描述

(文章来源:雷锋网)

Arm推出了一系列全新的IP,包括NPU、GPU以及DPU。NPU尤为值得关注,不仅因为NPU系列同时发布了N57和N37两款新品,还因为Arm的ML处理器(Machine Learning Processor)系列名称Ethos也正式公布。全新AI系列产品的亮相,意味着Arm的AI策略更加明晰。

实际上,Arm原计划在2019年第一季度发布首款ML处理器。之所以选择这个时间点,Arm ML事业群商业与营销副总裁Dennis Laudick去年11月接受雷锋网专访时表示:“最近我们已经看到机器学习技术正在稳定和成熟,市场需求也正在不断增加,我们认为现在是进入市场的最佳时机。”

不过,Arm首款ML处理器的发布时间是在今年5月,比计划略晚一些。Dennis上周再次接受雷锋网专访时表示,发布推迟有很多原因,产品开发是主要的问题。ML处理器开发的过程中面临很多挑战,其中一个很大的挑战就是数据移动处理不好就会消耗大量的电,另一个大的挑战就是如何权衡效率和灵活性。

虽然产品的开发影响了首款ML处理器发布的时间,但Arm并没有在首款ML产品发布时就公布其系列名称和型号。而是直到面向主流市场,提供性能、成本以及功耗均衡的N57和对成本极端敏感的N37发布,Arm才正式公布ML系列处理器的的名称——Ethos(中文可翻译为精神)。此时,外界也才清楚5月发布的首款ML处理器型号为Ethos-N77,定位高端,面向高性能需求的市场。

这是为什么?Dennis解释称,其实有很多原因,Arm内部也在重新思考命名系统,如果推出第一款机器学习产品就立刻发布新的产品系列名称,可能大家会把对这个系列品牌的印象和认知捆绑在这一款产品身上,我们不希望造成这样的效果。我们希望大家看到Ethos这个产品名下面的产品系列是广泛而丰富的,这就是为什么要等到有针对三个不同市场,三个不同档次的产品都出来了,才正式的对外公布产品系列的名称的主要原因。

但更为关键的是,市场上已经有众多竞争者,此时推出Ethos还有竞争力吗?Dennis表示,Arm的成功一直以来都得益于生态系统,对于NPU来说挑战并不是能够做出自己的NPU,而是NPU在市场上是不是真的好用。我们已经听到合作伙伴反馈说,希望在硬件上能够标准化,他们不想支持15种不同的硬件,所以,他们期待有一个标准化的软件平台能够支持。

以具体的产品看,Ethos-N57与Ethos-N37的设计理念包括一些基本原则,例如:针对Int8与Int16数据类型的支持性进行优化;先进的数据管理技术,以减少数据的移动与相关的耗电;通过Winograd技术的落地,使性能比其他NPU提升超过200%。

AI处理器支持的数据类型非常关键,随着算法和模型的逐步成熟,边缘端的AI芯片很多都只支持Int8的数据类型,但Arm还选择支持Int16。对此,Dennis表示,机器学习支持Int8数据类型基本就足够了,我们之所以选择也支持INT16是为了更好的应对涉及到图像处理的工作,因为通常来说像素是10到12位,牵扯到颜色,支持INT16就省略了很多的数据转换的工作,非常适合图像处理。

但为何又没有支持更高精度的FP16?“因为FP16对带宽的需求相当高,这就意味着处理器的整个处理量和功耗就会提升。但消耗这么多的功耗和带宽,准确率与INT8比较却没有多少提升。” Dennis如此解释。

虽然机器学习让处理器的设计面临着新的挑战,不过Dennis认为机器学习本身并没有改变最为根本的处理器的设计原则,只不过针对机器学习的处理器设计的重点可能和通用处理器有所不同。Arm一直强调的数据管理是我们的重点,还有并行计算、矩阵乘法都是我们关注的重点。

硬件的独特性之外,软件也同样重要,特别是在AI时代,软硬一体化的重要性更加突显。要实现理想的软硬结合,Dennis认为有两大挑战,一个还是权衡的问题,也就是多少工作让硬件完成以及多少工作给软件完成。另一个是ML框架的支持,因为这个领域还很新,还会出现不同的框架。

除了软硬一体化提升AI性能,在先进半导体制程越来越昂贵的背景下,通过异构系统提升处理器性能也受到了很大的关注。但异构的系统给软件带来的更大的挑战,此时,到底是用统一的软件API去分配硬件资源实现易用性,还是对每个硬件单独编程让系统更加高效?

Arm采用的在硬件之上有特别优化的Compute Library,它会把底层的硬件和驱动进行充分优化,根据算子的不同需求驱动硬件,可以提升几倍到十几倍的效率。再上一层是Arm nn,可以将TensorFlow、Caffe等神经网络框架转换成Compute Library可以执行的任务,让开发者不用关心底层的硬件,只需要使用标准架构进行开发就可以。

因此,Dennis表示Arm采用的方式是更加底层的方式,软件直接与CPU、GPU或NPU进行沟通,做最佳匹配。这其中最大的挑战还是平衡的问题,软件的架构要做到根据具体的应用,分配专用和通用的处理器,这个百分比还可以不断调整,这是最难做的。

在框架的支持上,Arm是希望其硬件可以让开发者不需要去特别选择需要用哪一个框架。NPU软硬件的独特性和优势只有获得市场的认可才能成功,那么首先得满足不同场景的算力需求。Ethos系列现有的三款ML处理器性能从1-4 TOP/s不等,但是即便是在边缘端,也会有更高的性能需求,更不用说高性能计算的场景。

但是,随着系统的复杂性增加,计算单元的增加并不意味着一直能够带来线性的性能提升。Arm如何应对?Dennis表示,这种组装确实有其局限性,到达某个性能后可能性能的提升就消失了,但Arm在GPU和CPU多处理器架构上有很好的架构设计,能够尽量实现比较长的线性性能提升。

为应对AIoT时代更激烈的竞争,特别是RISC-V的竞争,我们也看到Arm在本月初宣布推出全新的功能 Arm Custom instructions,允许客户在特定的 CPU 内核中加入自定义指令功能,能够加速特定的用例、嵌入式和物联网应用程序。

Dennis表示,我们会认真的看待RISC-V在市场上的进展和动作,就像我们认真看待其他架构一样。Arm的优势在于我们能够提供最全面的、拥有灵活性、普遍性的解决方案和产品,与此同时,我们还拥有强大丰富的生态,能够更好的满足市场的需求。
    (责任编辑:fqj)

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 相关推荐
  • A

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分