风靡一时的DPU市场,现在怎么样了?(上)

电子说

1.2w人已加入

描述

得数据中心者的天下,拥有海量数据中心的企业,像亚马逊、英特尔等外企都有自己领先的产品,国内阿里云、腾讯、字节跳动等互联网巨头都在自研DPU产品,此外还有很多DPU创业公司如云豹智能、星云智联、云脉芯联、中科驭数、大禹智芯、益思芯、芯启源等。

一时间DPU市场异常火爆,当然,这是2020年的情况。

在2020年被英伟达CEO黄仁勋称为“数据中心第三颗主力芯片”后,DPU就以惊人的速度崛起,成为整个行业甚至整个社会的关注重点。

几年过去了,国内DPU的分布和格局怎么样了呢?这篇文章就来简单介绍梳理一下。

先简单介绍一下DPU为什么出现,解决哪些问题。

DPU 处理器是一种低功耗、低成本的专用处理单元,处理数据的效率远高于同类处理器,它出现的底层逻辑是为了提高CPU的处理效率,释放CPU算力,同时为CPU和GPU提供基础数据服务。

由于每个数据中心都具有不同的架构和要求,因此 DPU 必须是高度可编程的。所以在DPU技术路线上,有不同的选择。DPU有ASIC、FPGA和SoC三种实现路径,在成本、编程简易性和灵活性方面各有利弊,目前DPU主流的市场方案包括以Arm核为主的架构、FPGA+CPU架构,以及SoC架构,前两者已经在云计算厂商得到批量部署,整体看SoC方案则是今后的趋势。

DPU需要分担数据中心其他处理器的工作(可以是网络卸载、计算卸载或数据服务卸载)来节省成本,尤其是降低进入数据中心的资本成本和降低数据中心的运营成本。

DPU的核心作用

DPU最直接的作用是作为CPU的卸载引擎,接管网络虚拟化、硬件资源池化等基础设施层服务,释放CPU的算力到上层应用。

DPU可以成为新的数据网关,将安全隐私提升到一个新的高度。在网络环境下,网络接口是理想的隐私边界,但是加密、解密算法开销都很大,如果用CPU来处理,会消耗掉大量的CPU算力。而这些都可以通过将其固化在DPU中来实现。

DPU也可以成为存储的入口,将分布式的存储和远程访问本地化。随着SSD性价比逐渐可接受,部分存储迁移到SSD器件上已经成为可能,传统的面向机械硬盘的SATA协议并不适用于SSD存储,所以,将SSD通过本地PCIe或高速网络接入系统就成为必选的技术路线。

NVMe(Non Volatile Memory Express)就是用于接入SSD存储的高速接口标准协议,可以通过PCIe作为底层传输协议,将SSD的带宽优势充分发挥出来。同时,在分布式系统中,还可通过NVMe over Fabrics(NVMe-oF)协议扩展到InfiniBand、Ethernet、或Fibrechannel节点中,以RDMA的形式实现存储的共享和远程访问。

这些新的协议处理都可以集成在DPU中以实现对CPU的透明处理。进而,DPU将可能承接各种互连协议控制器的角色,在灵活性和性能方面达到一个更优的平衡点。

随着云平台虚拟化技术的发展,智能网卡的发展基本可以分为三个阶段

处理器

上面简单介绍了DPU的发展背景和概念,下面看看一些在DPU上布局的公司和产品,不完全统计。

处理器

图片来源(SDNLAB酱公众号)

我们挑几个熟悉的DPU公司进行简单介绍

阿里:CIPU

2017年阿里云推出神龙架构,2022年又发布了全新的云数据中心专用处理器—CIPU,不同于传统的以CPU为中心的架构设计,CIPU被定义为云计算的控制和核心性能加速中心。

CIPU向下云化管理数据中心硬件,加速计算、存储和网络资源;向上接入飞天云操作系统,将全球上百万台服务器变成一台“超级计算机”。
 

总体来说,CIPU主要有两大功能:一是具备对底层基础设施资源的虚拟化管理能力,二是能承载飞天对这些资源的编排和调度需求,并具备计算、网络、存储、安全等硬件加速能力。

腾讯:水杉、银衫

2020年9月,腾讯第一代基于FPGA的自研智能网卡正式上线,命名为“水杉”。水杉投入应用后,“银杉”的研发工作也紧锣密鼓地启动,并于2021年10月正式上线,关于腾讯芯片的更多细节,我们在之前一篇文章有介绍过(腾讯芯片)。

处理器

2021 年 11 月,腾讯发布了“玄灵”智能网卡芯片,将原来运行在主CPU上的虚拟化、网络/存储IO等功能下移到DPU芯片,实现了主CPU的零占用,相比业界产品性能提升了4倍。


这一芯片的目标或许和云计算有关,更进一步或许和云游戏相关,游戏业务对腾讯至关重要,而云游戏则面向未来,通过玄灵智能网卡芯片,腾讯或将进一步完成其在云游戏领域的深入布局。

百度:太行DPU2.0

百度智能云对 DPU2.0的核心定位是“Cloud Native IO Engine”。解决在多租户、细粒度算力形态、后端解耦的硬件资源池架构下,海量的 IO 数据搬移、通信、处理、安全等等问题。

百度太行 DPU2.0主要包含有软件定义虚拟化,支持万级虚拟设备;网络硬件加速,由软件转发变成硬件转发;高性能的 RDMA 网络,用自研协议解决流控留空、拥塞等问题;存算分离硬件加速,通过超大资源池打平本地和远程的区别;云管控硬件通道,保证各形态计算实例共池,实现热迁移、热升级、热插拔等特性,支持千亿级模型训练等。

百度太行DPU大致发展路径如下所示:

处理器

字节跳动:DPU

字节跳动拥有海量的数据,根据亚马逊成功的案例来看,做DPU变得顺理成章,为数据中心的网络、存储和计算加速,一方面对内业务提供硬件加速服务,另一方面通过火山引擎产品的方式对外服务。关于字节的DPU官方信息对外同步的比较少,感兴趣的朋友可以私聊了解内部情况。

天翼云:紫金DPU 2.0

天翼云紫金DPU 2.0采用FPGA+SoC架构,依托于FPGA超高的性能和灵活的可编程特性,将数据面全卸载到FPGA,实现业务的直接硬件卸载加速,支持网络虚拟化、存储虚拟化、IO虚拟化、RDMA、高可用等关键技术。

天翼云紫金DPU主要为天翼云自身产品提供底层和技术支撑,通过弹性裸金属、云主机、容器等产品进行整体售卖,目前已经在天翼云部分资源池推广部署2000+台服务器,后续将在整个云数据中心全面推广部署。

新华三:赤霄

新华三自研的赤霄智能加速卡实现了网络无损、存储无损、计算无损和安全无损的全无损能力。

UIS赤霄智能加速架构的核心是实现了网络加速和存储加速。采用加速卡加速以后,在主机上仅需运行虚拟化平台,承担CPU、内存及少量外设的虚拟化,而网络访问,存储访问及存储的处理逻辑全部下沉到加速卡上去处理。

处理器

DPU市场目前进入了深水区,考验的就是各家商业落地和变现能力,互联网企业在这方面有着天然的优势,像亚马逊、谷歌等就是典型的案例,由于篇幅原因,下一章会专门介绍国内专注做DPU的芯片设计公司,如云豹智能、星云智联、云脉芯联、中科驭数、大禹智芯、益思芯、芯启源等

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分