英特尔四大层面，提升DeepRec训练和推理能力

英特尔中国 2022-07-10 905

从淘宝到天猫应用，从搜索、推荐到广告等场景，对井喷式的数据进行超大规模训练推理的应用，已经在我们身边落地开花。阿里巴巴集团的开源推荐引擎 DeepRec (PAI-TF) 主要用于稀疏模型训练和预测，可支撑千亿特征、万亿样本的超大规模稀疏训练。

从2019 年开始，英特尔就与阿里巴巴PAI团队紧密合作，将英特尔 AI 技术应用到 DeepRec 中。特别是英特尔处理器内置的英特尔 DL Boost (英特尔深度学习加速)，为 DeepRec 实现了四个层面上的优化：框架优化、算子优化、子图优化和模型优化。

四大层面，提升DeepRec 训练和推理能力

自英特尔至强可扩展处理器问世以来，通过从 AVX-256 升级到 AVX-512，英特尔将 AVX 的能力提高了一倍，极大地提升了深度学习训练和推理能力。第三代英特尔至强可扩展处理器之后，英特尔推出支持 BFloat16 (BF16) 数据类型的指令集，也应用到 DeepRec 的优化中。

框架优化：DeepRec 集成了英特尔开源的跨平台深度学习性能加速库oneDNN (oneAPI Deep Neural Network Library)，该程序库已经针对大量主流算子实现了性能优化。与搭载 BF16 指令的第三代英特尔至强可扩展处理器同时使用，可显著提高模型训练和推理性能。

算子优化：搜索广告推荐模型中存在着大量稀疏算子，调用 AVX-512 指令加以优化后，大幅提升了数据读写效率和性能。

子图优化：图优化是 AI 性能优化的主要有效手段之一。在大规模稀疏场景下，DeepRec 加入多种子图融合功能，减少大量冗余操作，配合英特尔 AVX-512 指令加速，实现了子图性能的明显提升。

模型优化：基于CPU 平台，英特尔在 DeepRec 构建了涵盖多个主流模型的独有推荐模型集合，涉及召回、排序、多目标等多种常见场景；并针对硬件平台进行性能优化，相较于其他框架在 CPU 平台上带来跨越式性能提升。

阿里巴巴 PAI 团队的测试结果证明：基于 Criteo 数据集，使用 BF16 优化后，模型WDL精度或AUC 可以逼近FP32，并且BF16模型的训练性能提升达1.4倍，效果显著。

未来，英特尔还会从优化器算子、attention 子图、添加多目标模型等多个角度进一步实施优化，更大程度地发挥 CPU 平台硬件优势、尤其是新硬件特征的效果最大化，从而为稀疏场景打造更高性能的 CPU 解决方案。

当然，英特尔为 DeepRec 的优化并不仅限于 CPU 层面。

审核编辑：李倩

打开APP阅读更多精彩内容