字节跳动「突袭」交换机!

描述

突袭,其实并不恰当!

因为字节跳动自研交换机,早在2019年,就开始悄悄布局了。

只是这一次,随着51.2T高性能数据中心交换机的闪亮登场,字节跳动也低调宣布,实现了“2023年全面上线自研交换机的目标”。

废话不说,看看这款命名为B5020的51.2T交换机的细节吧。

按字节的说法,这可是全球首款51.2T全端口支持LPO的交换机,也是全球率先实现800G实际规模化部署的产品划重点

上面视频来源于字节跳动系统技术公众号(字节跳动SYS Tech),我在二次剪辑的时候,把一些关键信息摘出来Highlight了一下。

先看一下交换机的外观和内部结构,标准机架式,4U高度,64×800GbE端口。 整机交换容量51.2Tbs(其实按业界全双工的算法应该是102.4Tbps),这个容量也是当下业界单芯片盒式交换机的极限。

有人说,前面板看着挺空的,似乎2U就能摆下这些端口,为啥不把机箱做得更紧凑些(比如3U甚至2U),岂不是更能节省机房空间。

其实,字节在设计这款交换机的时候,散热、电源功率、机箱结构等等,都是做了向后兼容下一102.4T产品的考虑,且从功率密度角度,2U省空间是伪命题。

未来,单芯片102.4T时代,这个4U结构正好可以摆下128个800G端口(当然也可以是64×1.6T,这端口速度,看着就吓人啊,刚入行的时候,1G我都觉得很少见,谁能想20年后,马上要1600G了)。

在板卡设计上,字节也做了很多微创新,比如整机一张MAC-PCB板,整机内部仅用三条连接线缆。

这些极简设计可以让整机生产功率大幅减少。有助于提高生产直通率,减少故障点。

以前大家学产品规划/管理的时候,都有一条叫做DFM(Design For Manufacturing)。在这里,字节就运用得很好。

再比如,在仅用28层PCB方案的情况下,完成高密度布线设计,而且成功将全端口最大损耗控制在7d以下。

较少层数的PCB,降低了生产难度,也能更好地控制硬件成本。

在端口扇出(Fan out)设计上,字节团队摒弃了传统扇出方案(传统扇出方案在大芯片时代,远端端口难以维持信号完整性),首创了大芯片布线空间复用方案。

PCB相关的设计论文,入选了全球芯片设计领域的顶级会议DesignCon 2024,并申请了两项发明专利。

上面入选的论文一共三篇,其中两篇是PCB设计相关,还有一篇涉及800G LPO技术,因为这款交换机还在业内首度采用了800G LPO。

跟传统光模块相比,LPO光模块功耗低、延迟低,当然成本也更低。

另外,为了简化运维,这款交换机的管理引擎采用了插卡式模块化设计,替换方便。

同时管理引擎上的BMC、SSD、DDR内存等,全部都是扣卡设计,大大降低了运维难度。

有同学评价:管理引擎光模块化还不够,不支持热插拔,也不是双冗余。

其实这是对业务场景和交换机定位的误解。

这款B5020并不是模块化机箱交换机,而是一款“盒式”机架交换机,应用场景是互联网数据中心/智算中心的Leaf或者Spine。

在这样的场景下,一般采用胖树架构,而不是咱们常规园区或者企业网络中,双核心+汇聚+接入。

比如,互联网大厂数据中心一个典型的胖树网络是这样的,B5020充当的角色,就是一台高速率、高密度同时高性价比、易运维的Spine或者Leaf。

信号完整性

在交换机软件上,字节基于开源的SONiC,自研了Lambda OS。

不得不说,这几年SONiC的成熟度越来越高,生态也越来越好,很多互联网大厂都开始基于SONiC来开发自家的交换机软件。

关于字节的这款交换机,我们就扒到这里。

根据字节跳动的说法,他们已经实现了在2023 年全面上线自研交换机的目标。

目前大规模交付的 100G/400G 网络,全由自研交换机覆盖,硬件采用 JDM + CM 模式研发,软件则是自研的 Lambda OS。

说到这里,我们有必要谈谈硬件的研发模式:JDM+CM。

以交换机为例,业界的产品研发模式包括:

最初级的叫OEM模式,也就是大家常说的贴牌。交换机软硬件整机全是原厂提供,品牌商只需要贴标,修改下软件界面,就变成自家的品牌。

第二级叫做ODM模式,品牌商有自己的idea,提出自己的定制化需求,然后由ODM商完成设计和生产。对交换机来说,一般品牌厂家具备软件研发能力,只需要ODM定制化硬件。尤其白盒时代,这种流行度很高。

第三级叫做JDM模式,Joint Design Manufacture,联合设计制造,是客户企业(比如字节)和交换机制造商(比如数通大厂)共同参与设计和开发,企业方需要深度参与整个过程。

再往上,更纯粹的CM模式,Contract Manufacture,合同制造,也就是客户企业完全自行设计,然后委托给制造商生产。

回头看,字节交换机采用的模式就是“JDM+CM”,即联合设计制造+委托生产,这可不是贴牌,人家说自研,完全没毛病。

最后一个问题,有吃瓜群众评论,为啥字节“不务正业”非要搞交换机呢?难道字节是看重交换机那点可怜巴巴的市场吗?

非也,其实互联网大厂自研基础设施,是大势所趋,也是真实刚需。从国外的谷歌、Facebook到国内BAT,都有自研的经历。

从服务器到存储到交换机,甚至到AI芯片、DPU、主芯片,互联网巨头们一直在努力。 一方面是他们用量太大,通过自研是真的可以有效降低成本。另一方面,大厂们会根据自己的业务场景需求,来定制软件和硬件,让这些设备更纯粹的扛活。

所以,更低的成本、更方便运维、极简且定制的功能,这些是大厂们看重的,其实前面视频里,字节也多次强调了成本的节省、功耗的节省、运维的简化。

这不是交换机厂商的宣传标签,这是人家真实的需求啊。

还有一点新变化,在我们常规的组网工程里,交换机的数量要远远少于主机/服务器。

但是在现代数据中心/智算中心里,尤其是大模型时代GPU服务器场景,一台8卡服务器,就要占用8个400G/800G交换机端口,再加上冗余拓扑要求,交换机的需求数量大大提升了。

信号完整性

(图源:鹅厂网事)

所以,你看到,国内大厂都在自研交换机,阿里云推出了磐久交换机,从100G到400G全有。

信号完整性

(阿里自研交换机)

鹅厂则搞出了星脉网络,而且,鹅厂不仅有交换机,还有自研的光传输呢。

 这块市场有多大呢,从IDC的交换机市场跟踪数据上,我们可以大概揣摩出来。

下图橙色的部分,每次排名里那个神秘的“ODM Direct”,主要就是这类互联网大厂们干的。

信号完整性

所以,字节做交换机,并非「突袭」,更非玩票,而是谋定后动,顺势而为。





审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分