谷歌、百度、英特尔、AMD、哈佛大学与斯坦福大学联合发布了新型基准测试工具 MLPerf

电子说

1.3w人已加入

描述

日前,来自谷歌、百度、英特尔、AMD、哈佛大学与斯坦福大学联合发布了新型基准测试工具 MLPerf。这款获得 AI 技术大佬吴恩达和谷歌机器学习领头羊 Jeff Dean 力荐的工具专门用于测量机器学习软件与硬件的执行速度,它的到来代表着原本市场规模较为有限的 AI 性能比较方案正式踏上发展正轨。简而言之就是:以后各大公司发布的 AI 性能对比不能再王婆卖瓜自卖自夸了。

上周,RiseML 博客对谷歌 TPUv2 与英伟达 V100 进行了比较。如今,英特尔公司发布了另一篇博文,其中提到在利用 RNN 进行机器翻译数据处理时,“英特尔 Xeon Scalable 处理器的 AWS Sockeye(https://github.com/awslabs/sockeye )神经机器翻译模型性能可达英伟达 V100 的 4 倍。”

很长一段时间以来,业界对 AI 基准测试需求的现实意义展开了激烈的探讨与争论。支持者们认为,基准测试工具的缺失严重限制了 AI 技术的实际应用。

根据 AI 技术先驱吴恩达在 MLPerf 声明中的说法,“AI 正在给各个行业带来改变,但为了充分这项技术的真正潜力,我们仍然需要更快的硬件与软件。”我们当然希望获得更强大的资源平台,而基准测试方案的标准化进程将帮助 AI 技术开发人员创造出此类产品,从而帮助采用者更明智地选择适合需求的 AI 选项。

不止吴恩达,连谷歌机器学习大佬 Jeff Dean 也在推特上强烈推荐这款工具:

MLPerf

大意:谷歌很高兴和斯坦福、伯克利、哈佛、百度、英特尔、AMD 等等企业一起,成为致力于将 MLPerf 作为衡量机器学习性能的通用标准的组织之一。

MLPerf 项目的主要目标包括:

通过公平且实用的衡量标准加快机器学习发展进程。

对各竞争系统进行公平比较,同时鼓励创新以改善业界领先的机器学习技术。

保持基准测试的成本合理性,允许所有人参与其中。

为商业及研究社区提供服务。

提供可重复且可靠的测试结果。

对 AI 性能(包括 h/w 与 s/w 两种方向)的比较此前一直由各既得利益方发布,此次英特尔公司题为《利用英特尔至强 Scalable 处理器实现令人惊艳的推理性能》的博文正是最好的例子。 

这里我们并不针对英特尔——但必须承认,此类比较虽然包含重要见解,但通常也会通过故意设计确保某一供应商的方案表现优于其竞争对手。因此,标准化基准测试的存在将彻底解决这种中立性缺失,从而提供公平且客观的比较结果。

MLPerf 项目的定位参考了以往的类似方案,例如 SPEC(即标准性能评估集团)。MLPerf 项目声明指出,“SPEC 基准测试的出现显著推动了通用计算能力的改进。SPEC 由计算机公司联盟于 1988 年推出,并在接下来的 15 年内实现了年均 1.6 倍的 CPU 性能提升。MLPerf 结合有原有基准测试领域的最佳实践,包括 SPEC 使用的程序套件、SOR 使用的性能与创新性分别比较方法、DeepBench 的生产环境内软件部署以及 DAWNBench 的时间精确性度量标准等等。”

Intersect360 Research 公司 CEO Addison Snell 指出,“AI 已经成为目前众多企业不可忽视的技术力量,因此任何中立性质的基准指导结论都非常重要——特别是在挑选竞争性技术方案的场景之内。然而,AI 同时也是一类多元化领域,因此随着时间的推移,任何基准都有可能发展成惟一的主导性选项。五年之前,大数据与分析技术鼓动了整个科技业界的热情 ; 然而时至今日,这一领域仍未出现一种统一的通用基准。我认为 AI 领域可能也会发生同样的情况。”

Hyperion Research 公司高级研究副总裁 Steve Conway 表示,MLPerf 代表着“积极且实用的”一步,“因为多年以来买卖双方一直缺少必要的基准方案,用以证明不同 AI 产品与解决方案之间的差异。

原有基准的存在仅仅是为了解决早期 AI 发展阶段中的有界类实际问题。而随着无界类 AI 问题数量的快速增加,我们显然需要额外的基准工具对其进行评估,这一点在经济层面极为重要。所谓有限问题通常比较简单,例如语音与图像识别或游戏 AI 等等。而无界类问题则包括诊断癌症与阅读医学影像内容等,其目标在于真正为复杂的问题提供建议与决策。”

MLPerf 目前已在 GitHub 上发布,但仍处于早期开发阶段。正如 MLPerf 声明当中所强调,“目前的版本尚属于‘前 apha’阶段,因此在很多方面仍然有待改进。基准测试套件仍在开发与完善当中,请参阅以下建议部分以了解如何参与项目贡献。根据用户的反馈,我们预计 5 月底将会对项目进行一轮重大更新。”

目前,MLPerf 套件中的七项基准测试皆已提供参考实现方案(摘自 GitHub):

图像分类– Resnet-50 v1,适用于 ImageNet。

对象检测– Mask R-CNN,适用于 COCO。

语音识别– DeepSpeech2,适用于 Librispeech。

翻译– Transformer,适用于 WMT English-German。

推荐– Neural Collaborative Filtering,适用于 MovieLens 20 Million (简称 ml-20m)。

情绪分析– Seq-CNN,适用于 IMDB 数据集。

强化– Mini-go,适用于预测游戏行动。

每套参考实现皆提供以下内容:在至少一套框架当中实现模型的相关代码,一个可在容器内运行基准测试的 Dockerfile,一个用于下载对应数据集的脚本,一个负责运行模型训练并加以计时的脚本,外加关于数据集、模型以及机器设置的说明文档。

根据 GitHub 页面中的说明,此基准测试已经在以下设备配置中完成验证:

16 CPU,单个英伟达 P100。

Ubuntu 16.04,包括支持英伟达硬件的 Docker。

600 GB 磁盘(实际上,大多数基准测试并不需要这么大的存储容量)。

我们期待看到 AI 行业最终会迎来怎样的基准测试前景——少数垄断,还是百家争鸣。在这样一个年轻的市场当中,相信会有很多厂商提供基准测试工具与服务。斯坦福大学就是 MLPerf 项目成员,其最近刚刚发布了首个 DAWNBench v1 深度学习测试结果。

斯坦福大学报告称:“2018 年 4 月 20 日,第一个深度学习端到端基准测试与性能衡量竞赛正式启动,旨在记录普通深度学习任务达到最高准确度水平所需的时间和成本,以及达到此最高推理准确度水平的延迟和成本。专注于端到端性能,意味着我们提供一种更为客观的方法,可用于对不同计算框架、硬件、优化算法、超参数设置以及影响实际性能的其它因素进行标准化比较。”

作为参赛选手之一,fast.ai——一家年轻的人工智能训练与人工智能软件工具开发公司——取得了出色的成绩。这些基准结果非常重要,斯坦福大学也确实在以严肃的态度对待此轮竞赛。但除此之外,目前我们显然还需要更多与之类似的客观、公平的比较平台。在这方面,MLPerf 的出现应该能够帮助我们早日突破困局,真正有理有据地选择最适合实际需求的 AI 解决方案。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分