第四代英特尔® 至强® 可扩展处理器助东华发思特“神农 AI 中台”推理性能提升4.5倍

英特尔中国 2023-07-28 1640

描述

人工智能 (AI) 技术的深入应用为数字化转型注入了充沛的动能，引领着新一轮技术与产业的创新浪潮。随着 AI 技术的不断发展以及行业应用的逐步成熟，AI 市场正在出现快速的增长。IDC 预计，中国人工智能市场规模在 2023 年将超过 147 亿美元，到 2026年将超过 264 亿美元¹。

在端到端的 AI 整体应用流程中，AI 推理是其中的关键环节。在 AI 推理的算力设备选择方面，CPU 服务器具备更强的灵活性、敏捷性，能够支持大数据、云计算、虚拟化等多种业务的弹性扩展，方便部署和管理，满足企业不同业务场景的动态资源需求。此外，通过面向 AI 工作负载的技术特性升级以及性能优化，CPU 已经能够广泛满足用户不同 AI 应用对于算力的要求，在大量场景中的推理性能可比肩GPU，助力客户节省成本，同时提升 AI 基础设施的可靠性与敏捷性。

为了进一步提升旗下产品 “神农 AI 中台” 的性能，东华软件股份公司（以下简称：东华软件）和英特尔携手，由东华软件旗下的东华发思特 AI 团队与英特尔技术团队就神农 AI 中台展开合作，将基于英特尔至强可扩展处理器的服务器作为推理服务器，并通过 OpenVINO 工具套件将神农 AI 引擎框架训练的模型进行量化，利用英特尔 DL Boost 的矢量神经网络指令 (VNNI) 提高人工智能推理能力。在既有合作成果的基础上，双方将推理服务器中的处理器升级为第四代英特尔至强可扩展处理器，将OpenVINO 工具套件升级为 2023 版，将推理速度提升了数倍以上。

联合创新，神农AI中台在算力、
成本、敏捷性方面实现更好平衡

东华发思特研发的神农 AI 中台具备人工智能中台和模型 SaaS 服务能力，其推理引擎提供了丰富的版本，包含 OpenVINO版，为客户提供丰富、高效的模型推理服务，在智慧城市、数字乡村等场景有着广泛的应用。为了满足业务发展和用户增加的需要，在算力、成本、敏捷性等方面实现更卓越的平衡，东华发思特与英特尔进行了联合创新。在进行测试之后，东华发思特发现，将神农 AI 中台推理服务器的CPU 从英特尔至强黄金 6348 处理器升级为英特尔至强铂金 8480+ 处理器之后，能够最大程度上提升性能表现，同时保证较高的经济效益。

该方案除了搭载高性能、面向人工智能应用进行优化的第四代英特尔至强可扩展处理器，还通过 OpenVINO 工具套件进行了性能优化，并支持技术的持续创新。第四代英特尔至强可扩展处理器与 OpenVINO 工具套件的结合可以进一步提升 AI 推理性能。OpenVINO 工具套件支持从边缘到云的深度学习推理，可在包括英特尔 CPU、iGPU 和FPGA 在内的英特尔硬件平台（包括加速器）上部署并加速神经网络模型，能够在保持精度的同时提高推理速度。OpenVINO工具套件支持开发人员使用行业标准人工智能框架、标准或自定义层，将深度学习推理轻松集成到应用中。

东华发思特与英特尔合作，在以下方面进行了重点优化：

针对复杂网络的模型结构压缩技术：为压缩网络结构，节省数据在内存中的读写耗时，在读取训练模型后，将对其网络结构进行深度分析，基于预设策略，将一些常见的线性算子进行融合处理。针对多任务场景的跨平台异构加速技术：通过异步执行策略，将推理任务平均分配到不同的 CPU 内核资源上，减少多线程间的任务同步，提供网络吞吐能力。同时能够根据设备负载情况，自动将推理任务以模型子图为单位，在 CPU 和 GPU上进行动态部署，全面激活英特尔平台的 iGPU 资源，提升设备使用率，降低项目整体成本。在图像识别等场景的深度学习中发挥优势：基于 MKL/MKLDNN对不同深度学习模型进行特定优化，利用英特尔至强可扩展处理器内置的英特尔深度学习加速技术对 INT8 提供更优的支持。

英特尔 AMX加持
推理性能大幅提升

在本次优化中，东华发思特重点利用了第四代英特尔至强可扩展处理器内置的英特尔 AMX (Advanced Matrix Extensions)高级矩阵扩展加速引擎。英特尔 AMX 采用了全新的指令集与电路设计，包含了一系列用于矩阵运算的指令集 TMUL，以及新的矩阵寄存器文件 TILEs。英特尔 AMX 还支持 INT8 和 BF16 数据类型。其中，BF16 能够提供与 FP32 相似的精度，但是在 AI工作负载中的训练和推理方面能够带来大幅的性能提升。

为了验证新方案对比旧方案的性能提升，东华发思特进行了一系列测试，其选择的模型为图像分类模型 ResNet50_vd，ResNet50_vd是一种深度卷积神经网络模型，它是在 ResNet50 的基础上进行改进的。ResNet50 是一种非常流行的卷积神经网络模型，它在ImageNet 数据集上取得了很好的表现，但在训练过程中容易出现梯度消失或梯度爆炸等问题。ResNet50_vd 通过引入一些改进，使得网络的训练更加稳定，同时在性能上也有一定提升。

测试的软硬件配置如表 1 所示，东华发思特分别测试了在其他配置不变的前提下，处理器升级所带来的性能提升；以及在同样硬件配置的前提下，不同模型精度所带来的性能差异。

表 1. 测试软硬件配置

	原有方案	新方案
处理器	2*英特尔至强金牌 6348 处理器 @ 2.60GHz	2*英特尔至强铂金 8480+ 处理器 @ 2.0GHz
核数	28 *2	56 *2
内存	24*32 GB DDR4 2933 MHz	16*16 GB DDR5 4800 MHz
操作系统	Ubuntu 20.04.5 LTS	CentOS Linux release 8.5.2111
神农AI中台	ShenNong-AI.2022 (OpenVINO)	ShenNong-AI.2022 (OpenVINO) ShenNong-AI.2023 (OpenVINO)

在第一轮测试中，东华发思特对比了神农 AI 中台推理引擎（OpenVINO2022 版）分别在第三代/第四代英特尔至强可扩展处理器上的运行性能差异。对比第三代英特尔至强可扩展处理器方案，第四代英特尔至强可扩展处理器将推理能力提升了约 4.5 倍 (FPS)²，同时保持了推理准确度。

在第二轮测试中，东华发思特对比了在 INT8 与 BF16 精度下的性能差异。测试数据如图 3 所示，INT8 处理模型在体积减少的同时，在推理性能上实现了 1.5 倍 (FPS) 的性能提升³。

第四代英特尔 至强 可扩展处理器
为客户提供更低成本高收益的AI解决方案

众所周知，硬件算力是AI推理引擎运行的关键因素之一，因此选择合适的硬件设备对于推理引擎的性能和效率至关重要。虽然 GPU 服务器在深度学习模型推理方面具有较高的性能和效率，但是仍然存在一些不足之处。

首先，采用 GPU 服务器进行深度学习模型推理，需要专门的 GPU 硬件设备，这将带来较高的硬件采购和配套设施建设成本。此外，GPU 服务器的应用范围受限，不够灵活，难以适应不同场景的需求。其次，GPU 服务器上进行深度学习模型推理需要复杂的部署和调优，门槛相对较高，难以满足新增应用快速上线的需求。相比之下，CPU 服务器具有更强的灵活性、敏捷性和可扩展性，适用于大数据、云计算、虚拟化等多种业务场景，方便部署和管理，能够满足企业不同业务场景的动态资源需求。另外，随着技术的不断发展，CPU 在面向 AI 工作负载的技术特性升级和性能优化方面也有了很大的进步。通过使用新的处理器架构、加速器、向量计算单元等技术，CPU 已经能够广泛满足客户不同 AI 应用对于算力的要求。同时，CPU 的高可靠性和稳定性也能够保证算法的运行稳定性和数据的安全性。

基于第四代英特尔至强可扩展处理器以及最新版的 OpenVINO 工具套件，英特尔提供的AI解决方案，使东华发思特神农 AI 中台的 AI 推理性能得到提升的同时，使硬件采购成本以及空间、功耗和软硬件调优等成本则得到降低，为客户带来了以下价值：

[ 更好的性能表现 ]

推理引擎通过使用最新的技术和硬件平台，提高了推理性能和效率，从而可以更快地执行深度学习模型的推理计算，在部分应用场景中的性能表现比肩 GPU，为深度学习应用提供更高效、更稳定的支持。

[ 更低的成本和更高的效益 ]

推理引擎使用高效的 AI 工作负载加速方式，可以在保证性能的同时，降低硬件和软件的成本，提高推理的效益。对比基于独立 GPU 的方案，该方案的成本优势更加明显。

[ 更好的兼容性 ]

推理引擎可以在不同的硬件平台和操作系统内核上运行，支持多种深度学习框架和模型，具有很好的兼容性和灵活性，可以满足不同客户的需求。

东华发思特与英特尔在现有合作基础上，继续探索第四代英特尔至强可扩展处理器在 AI 领域的推理性能潜力，证明了第四代英特尔至强可扩展处理器在架构和高级硬件特性方面的提升，有助于加速 AI 负载。切换到基于第四代英特尔至强可扩展处理器的基础设施平台后，东华发思特有望提高神农 AI 中台的效益和性能，为客户带来更高效的 AI 服务。

面向新一轮 AI 领域的大变革，东华发思特与英特尔未来将深度整合AI 领域的技术合作，包括基础设施和模型算法的优化等，为客户提供更先进的算法和模型，以及更灵活和更可扩展的计算架构和平台，助力客户实现业务 AI 的升级与转型。

资料援引：1.https://www.idc.com/getdoc.jsp?containerId=prCHC50539823 ，截至 2023 年 6 月。

2.数据援引自东华发思特与英特尔截止 2023 年 5 月的内部测试结果。测试配置：原有方案 — 双路英特尔至强金牌 6348 处理器 @ 2.60GHz，28 核，768 GB 总内存 (24*32 GB DDR4 2933 MHz)，Ubuntu 20.04.5 LTS，ShenNong-AI.2022 (OpenVINO)；新方案 — 双路英特尔至强铂金 8480+ 处理器 @ 2.0GHz，56 核，256 GB 总内存 (16*16 GB DDR5 4800 MHz)，CentOS Linux release 8.5.2111，ShenNong-AI.2022 (OpenVINO) 和 ShenNong-AI.2023 (OpenVINO)。英特尔并不控制或审计第三方数据。请您审查该内容，咨询其他来源，并确认提及数据是否准确。 3.数据援引自东华发思特与英特尔截止 2023 年 5 月的内部测试结果。测试配置：双路英特尔至强铂金 8480+ 处理器 @ 2.0GHz，56 核，256 GB 总内存 (16*16 GB DDR5 4800 MHz)，CentOS Linux release 8.5.2111，ShenNong-AI.2022 (OpenVINO) 和 ShenNong-AI.2023 (OpenVINO)。英特尔并不控制或审计第三方数据。请您审查该内容，咨询其他来源，并确认提及数据是否准确。

想看更多“芯”资讯

用你的赞和在看告诉我们～

英

打开APP阅读更多精彩内容