人工智能芯片的性能如何评估?

电子说

1.2w人已加入

描述

TOPS是不是能够真实的反映芯片的AI性能?这是地平线乃至行业都在思考的问题。

伴随着对这个问题的思考,2019年,地平线联合创始人兼副总裁黄畅在全球人工智能和机器人峰会上表示,地平线希望定义真实的AI芯片性能。

时隔一年,地平线再次亮相于2020全球人工智能和机器人峰会,并提出了一种新的芯片AI性能评估方式——MAPS,即Mean Accuracy-guaranteed processing speed(在精度有保障范围内的平均处理速度),意思是在精度有保障的范围,测AI芯片的平均效能如何,得到一个全面、完整、客观、真实的评估。

如何评估芯片的AI性能?

对于芯片来说,PPA指标尤为重要,包括Power(功耗),Performance(性能),Aera(面积)。

黄畅表示,我们需要针对应用场景进行设计,可以指导研发调整优化防线,引导客户进行正确选择,同时能够促进行业有序协同向前发展。

历史上有很多常用的性能评估指标,比如CPU用MIPS,传统GPU用Textur和Pixel,在高性能计算上,GPU开始使用TFLOPS,进入到NPU时代,业内普遍使用TOPS。

不过,当提到TOPS的时候,往往说的都是芯片的峰值算力,体现的是整个芯片的理论上限,但这显然不能代表AI芯片的全部性能。

地平线曾表示,真正的AI芯片性能还包括算法处理速度和精度,算力的有效利用率以及算力转化为AI性能的效率等。

那么,如何评估芯片的AI性能?黄畅表示,可以从准、快、省这三个维度来看。

黄畅进一步指出,准是反映实际需求任务上的算法精度,比如说图像分类里面我们用Top-1或者Top-5的精度判断它是不是准,还有COCO里面可以用mAP这样的指标描述它,不同的任务里面,在学术界已经有比较多共识的指标描述它。在快的方面,通常有两个维度,一个是延迟,一个是吞吐率,前者更侧重于处理单个任务的最快反应时间,后者应用于你可以在服务器层面上用最大的处理方式处理它的吞吐率。省就是看它的成本和功耗。对于AI芯片的性能评估来讲,准和快是两个非常重要的因素。

更具包容性、更开放的评估标准

基于对AI芯片的深刻理解,地平线提出一个更有包容性、更开放的评估标准——MAPS。

黄畅表示,MAPS对行业有以下六大点创新之处,第一,能够可视化芯片的Benchmark,可以通过可视化的图形更精确的表达。第二,关注真实、面向结果的需求,只在乎精度和速度,不在乎中间任何关于算法的取舍和选择。第三,可以统一表示精度与速度,关注主流精度区间。第四,隐藏与最终结果无关的中间变量,包括模型、输入大小、批处理。第五,通过这种方法可以在算力之外帮助用户理解芯片到底能跑多快以及多好,最终留有最大的空间引导客户使用最优的方式使用这颗芯片。

作为 AI 领域的奥林匹克竞赛,ImageNet 比赛产生了几乎所有机器视觉中最重要的模型,它们在 ImageNet 上的精度可充分迁移到其他机器视觉任务(如物体检测、语义分割等)。在 ImageNet 的主流精度范围(75~80%)下,速度最快的模型所代表的点(由精度和帧率确定)所围多边形面积大小即为芯片处理ImageNet AI任务的能力大小,其公式为MAPS = 所围面积 /(最高精度-最低精度)。在演讲现场,黄畅还展示了MAPS评估方式在在ImageNet上的定义与主流芯片测试结果。

黄畅表示,MAPS由三个要素构成,更能真实反映AI性能指标。

第一是TOP/Watt、TOPS/$,即理论峰值计算效能这是传统的方式。

第二是芯片有效利用率,把算法部署在芯片上,根据它的架构特点,动用编译器等系统化地解决一个极其复杂的带约束的离散优化问题,而得到一个算法在芯片上运行的实际的利用率,实际上是软硬件计算架构的优化目标。

第三是AI算法效率。我们每消耗一个TOPS算力,能带来多少实际的AI算法的性能,它体现的是AI算法效率的持续提升,也是算法研发、算法工程师、算法科学家始终努力在提升的,在过去几年里面,这个提升速度是非常快的。

黄畅指出,这三个要素中,理论峰值计算效能反映的是旧摩尔定律,AI算法效率反映的是新摩尔定律,就是AI算法持续快速发展提升得到的结果。我们希望有更多的软件、算法工作者,在MAPS评估指导体系的启发下,从自己最擅长的能力上持续推动AI芯片能力的发挥。
       责任编辑:tzh

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分