算力时代DPU让不可能成为可能

芯启源 2021-06-23 4631

描述

最近一段时间，DPU成为越来越热的一个话题。芯启源智能网卡是目前国内唯一的基于SoC架构的成熟DPU（Data Processing Unit，数据处理单元）完整解决方案，并拥有自主知识产权，已成熟量产，可提供从芯片、板卡、驱动软件和全套云网解决方案产品，已获得了中国移动苏研院的首批智能网卡订单。

最近英特尔发布了一款IPU，这可以说是对英伟达DPU的一个回应。因为从英特尔对IPU介绍的字面意思来看，“释放CPU开销”、“可编程”、“智能网卡”这几个特性与当下火热的DPU的作用如出一辙。

在Nvidia以及Marvell、Broadcom和 VMware等其他制造商中，智能网卡被称为数据处理单元（DPU），并且已经出现了好几代，如 Nvidia的BlueField。其实不止国外，国内DPU的创新市场也不断有玩家涌现，诸如芯启源、中科驭数、星云智联等本土DPU企业也正在排兵布阵。不过随着英特尔的加入，这个新战场将更加热闹无比。

DPU走上历史舞台

去年10月，由于Nvidia 将基于Mellanox的SmartNIC卡命名为“DPU”，DPU这一概念一炮而红。其实DPU这个概念是Fungible最先提的，然后被NVIDIA发扬光大。不到一年时间，DPU成为业界追逐的话题、资本界青睐的细分赛道、厂商们竞相研发的技术。

为何DPU这么受追捧，或者说我们为什么需要DPU呢？

现在除了主内存和辅助内存之外的所有计算都是在CPU上完成的，面对超大规模数据处理的需求，CPU的算力已经达到瓶颈，所以就需要硬件加速。但数据中心服务器上运行有这么多性能的敏感任务，又不可能为每一个任务分配一张加速卡。所以就需要一个通用的加速平台来整合这些加速任务。

DPU正是这样一个存在，它被定位为完成性能敏感的并且通用的工作任务加速处理。由DPU完成基础的工作任务，构建强大的基础设施层，上层的CPU和GPU来完成其他更有价值的工作。

那么，究竟什么是DPU？相比CPU和GPU，DPU究竟为何与众不同？

DPU 是一种新型的可编程处理器，DPU 是一种片上系统或 SoC，它结合了3个关键因素：

（1）行业标准、高性能、软件可编程的多核 CPU，通常基于广泛使用的 Arm 架构，与其他SoC组件紧密耦合。

（2）一种高性能网络接口，能够以线速或网络其余部分的速度解析、处理和有效地将数据传输到 GPU 和 CPU。

（3）一组丰富的灵活可编程加速引擎，可为 AI 和机器学习、安全、电信和存储等卸载并提高应用程序性能。

DPU最核心的任务是IO数据的预处理和后处理，如网络类任务（虚拟网络、IPSec等）、存储类任务（分布式存储、数据加解密、数据压缩、数据冗余算法等）、虚拟化加速（虚拟化整体Offload，业务管理分离）、安全和认证类的任务（Root of Trust 等）。

或者，从云计算业务的角度看，我们可以看做是，DPU是把整个IaaS的服务完整的Offload到硬件来做加速。

如此看来，关于DPU的应用上，一线的云运营商对DPU的需求会更强烈。因为，数据中心规模足够大的缘故，任何一个任务的Offload到硬件都意味着非常显著的成本降低，这些都是最直接的利润。随着整个软硬件技术栈的演进，DPU的采用会逐步扩展到所有的云运营商，以及其他各类数据中心。

看到了DPU如此重要且具有意义的作用，目前在国际上参与DPU研发设计的厂商既有Intel、Broadcom、Marvall、Nvidia等巨头，也有Fungible、Pensando等初创公司。

各家的打法也不太相同，不过两个在数据中心领域一直虎狼之斗的两大巨头英特尔和英伟达，还是很有看点的，他们是如何应对当下以及未来复杂数据处理问题的？

英伟达的DPU产品先行

英特尔的IPU理念超前

如今，数据中心已经成为英特尔、英伟达、AMD这些老牌芯片巨头未来争夺的主战场，而且英伟达收购Arm的意图，也是想能进一步占据数据中心服务器市场，其DPU就是集成了Arm的核，这可以说是取代英特尔的X86 CPU的一个切入点。

在DPU领域，英伟达可以说是先行者，且这几年其BlueField系列产品迭代速率也很快。英伟达在DPU上的技术突破，来自于收购以色列芯片制造公司Mellanox之后，英伟达在这家公司的硬件基础上开发出BlueField系列的两款DPU——英伟达BlueField-2 DPU与BlueField-2X DPU。

Nvidia于今年春季发布的BlueField-3 DPU承诺可卸载多达 300 个 CPU 内核的 I/O 任务。目前其技术路线图已经到了BlueField-4。

此外，英伟达还推出了DOCA的软件开发套件，这是一种集数据中心功能于芯片的架构，可助力开发者轻松地对 BlueField DPU 进行编程。DOCA是为DPU量身定做的软件框架，目的在于支持广大开发者在 BlueField DPU上进行软件开发。

DOCA与DPU之间就如 CUDA与GPU的关系。向上，DOCA 可以给程序员提供简单的开发接口，同时向下平滑兼容与支持每一代 BlueField DPU 的产品。据英伟达称，DOCA能实现从单芯片级数据中心到3U（CPU、GPU、DPU）一体超大规模数据中心统一架构。

而就在6月15日的Six Five峰会上，英特尔推出了全新的基础设施处理器（IPU）。首先要明确的是，英特尔的IPU不应与英特尔自己的成像处理单元（IPU）或英特尔平台更新（IPU），还有来自Mellanox（现在是NVIDIA）的IPU和Graphcore IPU所混淆，他们所定义的IPU意思都不一样。

其实细细看来，英特尔的IPU不是什么新鲜事物，跟当下主流的DPU作用类似。据英特尔官方的说法，IPU是一种可编程网络设备，旨在使云和通信服务提供商减少在中央处理器（CPU）方面的开销，并充分释放性能价值。

利用IPU，客户能够部署安全稳定且可编程的解决方案，从而更好地利用资源，平衡数据处理与存储的工作负载。它扩展了英特尔的智能网卡功能，旨在应对当下复杂的数据中心，并提升效率。

英特尔的IPU能干啥呢？其IPU可以通过专用协议加速器来加速基础设施功能，包括存储虚拟化、网络虚拟化和安全；通过把软件中的存储和网络虚拟化功能从CPU转移到IPU，从而释放CPU核心。还能允许灵活的工作负载分配，提高数据中心利用率。

据英特尔称，目前英特尔已经使用 FPGA 部署了 IPU，微软、百度、京东云和 VMWare是买家。通过特定功能，IPU可对数据中心中基于微服务架构的现代应用程序进行加速。谷歌和Facebook的研究表明，微服务通信开销可消耗22%到80%的CPU性能。

据了解，英特尔将推出更多基于FPGA的IPU平台和专用 ASIC，不过这些最终会是什么样子以及它们将实现什么都尚未说明。无论 IPU 最终变成什么样，这都是朝着分解迈出的明确一步，也是未来形成组件化“至强平台”的巨大飞跃。

那么如何看待两家的发展的思路呢？关于这点，笔者有幸采访到了软硬件融合技术理念倡导者、（前）Ucloud芯片及硬件研发负责人黄朝波，对于英特尔此次推出的IPU，黄朝波认为其理念超前，但实际的产品，现在还是FPGA，要看后面芯片的版本会怎么样。

而在其《软硬件融合》一书中对于超大规模云计算架构的创新上已有很深的见解，在他看来，在数据中心软硬件结合的发展全貌是：

第一阶段：智能网卡（SmartNIC）。管理侧网络后台任务是最先遇到资源消耗挑战问题的，典型的如Os，在25bit/s下占用的CPU资源已经非常显著。智能网卡就是为卸载网络相关工作任务而设计的。

第二阶段：数据处理器（DPU）。从本质上来说，在智能网卡的基础上行，不仅仅是网络，而是整个I/O相关的工作任务处理都会面临资源消耗的挑战问题，因此DPU在网络卸载的基础上，加入了存储卸载及虚拟化卸载的解决方案。

更进一步的：基础设施处理器（Infrastructure Process Unit，IPU）。从云计算公司的角度来看，基础设施处理器平台不仅承载网络、存储及虚拟化的卸载，还需要承担安全、管理、监控等各种管理面的功能，更为关键的是物理隔离业务和管理：业务在CPU和GPU，管理在DPU（或者更准确地称为IPU）。

更贴合用户需求的：弹性的基础设施处理器（elastic IPU，eIPU）。随着业务规模的进一步扩大，云计算公司对底层芯片提出了新的需求。

在传统芯片需求的基础上，新的需求体现在：差异化的产品开发、高效的业务卸载及快速迭代。对功能扩展而言，传统的解决方案都是基于集成或独立CPU实现的软件功能扩展。

在云计算场景中，需要更加极致的性能，基于CPU的软件方案已经无法满足要求，这就需要通过硬件方式（eIPU方案）来实现高性能的功能扩展，提供性能强大、开发低门槛的硬件功能弹性。

国内DPU玩家入局

在DPU这个创新的市场上，国内这几年不乏有玩家提早布局，而且现在资本市场也非常青睐DPU这个细分赛道，据投中网的报道，现在头部的DPU项目已经呈现出了热火烹油的机构争抢态势。国内的DPU初创企业正迎来发展的大好时机。

中科驭数算是国内布局较早的一家DPU企业，其创始团队来自于中科院计算所体系结构国家重点实验室。而且其DPU基于自主研发的KPU架构，KPU（Kernel Processing Unit）架构是中科驭数基于软件定义加速器技术路线自主研发的芯片架构。以KPU架构为核心，2019年其设计了业界首颗数据库与时序数据处理融合加速芯片，已经成功流片。

今年初，中科驭数宣布了其下一颗DPU芯片研发计划，功能层面包括完善的L2/ L3/L4层的网络协议处理，可处理高达200G网络带宽数据。该颗芯片预计将于2021年底流片。

截至目前，中科驭数已经布局126项发明专利，其中47项已获得授权，驭数围绕KPU（Kernel Processing Unit）芯片架构、基础软件和计算系统，建立了较完善的知识产权体系。

在应用领域方面，中科驭数从金融行业入手，除了深耕金融领域，2021年中科驭数产品的商业应用还将逐步拓展到混合云、数据中心、电信通信等领域。前段时间刚与中移物联网达成战略合作，双方将在边缘端网络处理、异构算力基础设施领域建立合作。

6月11日消息，DPU芯片企业“芯启源”宣布完成数亿元Pre-A3轮融资，本轮融资由SIG海纳亚洲、浦东科创、晶晨半导体、熠美投资（市北高新大数据基金）等联合投资，既有股东软银中国在本轮继续追加投资。本轮融资将用于吸引研发人才与管理人才加入团队，并启动DPU芯片下一阶段技术研发和市场拓展。

芯启源成立于2015年，芯启源是一家针对超大规模电信和企业级的智能网络提供核心芯片和系统的高科技公司，拥有两大板块核心产品。

据其官微介绍，芯启源智能网卡是目前国内唯一的基于SoC架构的成熟DPU（Data Processing Unit，数据处理单元）完整解决方案，并拥有自主知识产权，已成熟量产，可提供从芯片、板卡、驱动软件和全套云网解决方案产品，已获得了中国移动苏研院的首批智能网卡订单。

据企查查显示，另外一家DPU芯片企业星云智联成立于2021年3月22日，该公司专注于数据中心基础互联通信架构和DPU芯片研发。今年4月份，珠海星云智联宣布完成数亿元天使轮融资，由高瓴创投（GL Ventures）领投，鼎晖VGC（鼎晖创新与成长基金）、华登国际中国基金参与跟投。

据介绍，其正在研发的DPU将在 IAAS和PAAS之间形成独立的CAAS（通信服务层），实现物理资源的“多虚一”和近乎裸金属性能的“一虚多”，简化IAAS，提升资源利用率；

卸载PAAS中与通信数据流相关的处理，提升应用的通信效率和性能。从而实现数据中心架构的跨越式发展，有力支撑云计算、HPC、AI等业务的指数级增长，形成一个超300亿美元的新市场。

就目前形势来看，不论各家公司如何发挥各自专长去设计DPU芯片，都将推动整体行业的向前发展。

结语

据IDC统计，近10年来全球算力增长明显滞后于数据增长。全球算力的需求每3.5个月就会翻一倍，远远超过了当前算力的增长速度。而算力源于芯片，业内人士预测，DPU将成为继CPU和GPU之后重要的算力芯片。

以数据为中心的计算架构成为了趋势，网络计算和DPU成为以数据为中心计算架构的核心。黄朝波认为：“未来所有的服务器都会配备1-2块DPU/IPU卡”。DPU作为算力新型基础设施中的新物种，将在数据传输、存储、运算等方面扮演越来越重要的角色，算力时代DPU可以让不可能成为可能。

编辑：jq

打开APP阅读更多精彩内容