从淘宝到天猫应用,从搜索、推荐到广告等场景,对井喷式的数据进行超大规模训练推理的应用,已经在我们身边落地开花。阿里巴巴集团的开源推荐引擎 DeepRec (PAI-TF) 主要用于稀疏模型训练和预测,可支撑千亿特征、万亿样本的超大规模稀疏训练。
从2019 年开始,英特尔就与阿里巴巴PAI团队紧密合作,将英特尔 AI 技术应用到 DeepRec 中。特别是英特尔处理器内置的英特尔 DL Boost (英特尔 深度学习加速),为 DeepRec 实现了四个层面上的优化:框架优化、算子优化、子图优化和模型优化。
四大层面,提升DeepRec 训练和推理能力
自英特尔 至强 可扩展处理器问世以来,通过从 AVX-256 升级到 AVX-512,英特尔将 AVX 的能力提高了一倍,极大地提升了深度学习训练和推理能力。第三代英特尔 至强 可扩展处理器之后,英特尔推出支持 BFloat16 (BF16) 数据类型的指令集,也应用到 DeepRec 的优化中。
框架优化:DeepRec 集成了英特尔开源的跨平台深度学习性能加速库oneDNN (oneAPI Deep Neural Network Library),该程序库已经针对大量主流算子实现了性能优化。与搭载 BF16 指令的第三代英特尔 至强 可扩展处理器同时使用,可显著提高模型训练和推理性能。
算子优化:搜索广告推荐模型中存在着大量稀疏算子,调用 AVX-512 指令加以优化后,大幅提升了数据读写效率和性能。
子图优化:图优化是 AI 性能优化的主要有效手段之一。在大规模稀疏场景下,DeepRec 加入多种子图融合功能,减少大量冗余操作,配合英特尔 AVX-512 指令加速,实现了子图性能的明显提升。
模型优化:基于CPU 平台,英特尔在 DeepRec 构建了涵盖多个主流模型的独有推荐模型集合,涉及召回、排序、多目标等多种常见场景;并针对硬件平台进行性能优化,相较于其他框架在 CPU 平台上带来跨越式性能提升。
阿里巴巴 PAI 团队的测试结果证明:基于 Criteo 数据集,使用 BF16 优化后,模型WDL精度或AUC 可以逼近FP32,并且BF16模型的训练性能提升达1.4倍,效果显著。
未来,英特尔还会从优化器算子、attention 子图、添加多目标模型等多个角度进一步实施优化,更大程度地发挥 CPU 平台硬件优势、尤其是新硬件特征的效果最大化,从而为稀疏场景打造更高性能的 CPU 解决方案。
当然,英特尔为 DeepRec 的优化并不仅限于 CPU 层面。
审核编辑 :李倩
全部0条评论
快来发表一下你的评论吧 !