衡量移动设备中的AI性能

PCB88475579 2020-07-07 2396

电子说

1.4w人已加入

描述

如今，人工智能已成为普遍的流行语，但大多数消费者可能不知道它如何与日常生活息息相关。分析人员和技术新闻界中的某些人可能还会嘲笑该术语用于某些几乎不像真正的人工智能的技术的频率。也就是说，除了强大的数据中心外，还有一些平台对于AI处理和驱动它们的NN（神经网络）来说是很自然的。其中之一是AI推理（使用AI推理信息，而不是训练NN）在边缘和口袋中，使用智能手机。

就像您想象的那样，从Android到Apple的智能手机平台差别很大，但是语音-文本翻译和推荐器引擎（例如Google Assistant和Siri）等常见工作负载大量使用了常见的AI NN模型，在设备上执行此操作可提高速度和延迟。

衡量移动设备中的AI性能

随着任何新设备的推出以及热门新应用的出现，精通技术的消费者和技术媒体成员希望能够衡量和收集各种移动生态系统中设备的相对性能。此外，目前智能手机测试和评论中的AI处理性能正在发展，因此，在主要的应用商店中当然会出现多种工具，这些工具声称能够测量电话和其他移动设备的AI性能。而且-您猜对了-这些应用程序的创建肯定不尽相同。

为了解决这个问题，Marco和我深入研究了HotHardware，分析了三种主流AI基准测试中各种旗舰Android手机的性能，这些基准在某些情况下会产生截然不同的结果。

关键是要更好地了解实际测试的特定基准度量标准。测试是否代表尽可能接近实际的工作负载？理想的基准测试使用的是消费者可能会使用的实际应用程序，但短短的基准测试可以使用流行应用程序的相同核心软件组件来代表实际的性能期望。在这种情况下，这意味着我们需要了解这些基准测试工具要针对哪些NN进行测试，以及要使用哪些数学精度和AI算法来处理这些工作量。

什么是AI基准测试的正确标准？

使移动设备具有良好的AI基准的原因是一个相对较深的细微差别，但总之是几乎所有的移动NPU（神经处理单元或专用AI引擎）都采用INT8或量化数学精度或FP16浮点精度，例如利用ResNet-34或Google的DeepLab-v3等流行的NN在应用中进行图像分类和分割。那是猫还是狗？该相机拍摄应采用哪种颜色平衡？这些问题是AI试图从电话环境中推断出答案的问题，至少在成像工作负载示例中，尽管还有很多其他问题。

当前，INT8精度被认为足以满足大多数消费类移动应用的需求，并且压缩技术和高级量化技术的进步继续提高了移动设备上的INT8精度，同时仍然获得了与FP16相比更低的功耗。FP16提供更好的精度，但在关键的智能手机功耗预算上成本更高。

结果，大多数支持AI的移动应用都采用INT8来提高电源效率。但是，并非所有可用的基准测试都以相同的方式权衡了移动平台的性能。一些应用程序强调FP16的精度，即使实际上它的使用频率不如INT8那样高。此外，高通公司和其他公司的AI平台SDK（软件开发套件）针对INT 8进行了高度优化。因此，问题来了，就这些手机的真实AI性能而言，其中一些基准测试应用程序的各种测试结果到底意味着什么？和其他移动设备？从HotHardware收集的分数中可以看出，高通和华为在一些领先的移动硅平台上的排名大相径庭。显而易见，高通公司Snapdragon 865设备在INT8 NPU处理吞吐量方面以及在移动应用中可能更接近于当前的实际AI性能方面似乎占据了领先地位。还值得指出的是，高通的Snapdragon移动平台目前还为美国绝大多数Android手机提供支持，因此该公司对生态系统的影响深远。

分析师从移动AI的早期发展中汲取灵感

边缘的人工智能和机器学习是一个瞬息万变的领域，它提供的功能越来越强大且前景广阔，将在许多方面丰富我们的日常生活。结果，基准指标和用于衡量它们的应用程序也将必须随着时间的推移而发展和变化。此外，与传统的PC基准一样，新闻，技术爱好者和精明的消费者将在未来几天内更加关注AI基准，因为AI成为移动体验和可用平台解决方案中更为重要的组成部分市场。

因此，这些基准应用程序开发人员和媒体将有责任对构成优质移动AI基准的精要点以及对您自己的个人口袋AI助手的性能进行更真实的衡量。现在，如果基准测试没有采用常用的NN并切实代表INT8精度的重要性，您就不得不质疑该测试对普通消费者的价值。但是，这里没有绝对值。当前的格局正在以这种方式形成，但AI技术又以疯狂的步伐发展，整个行业的其余部分将需要跟上发展。

打开APP阅读更多精彩内容