字节跳动「突袭」交换机！

SDNLAB 2024-02-26 3586

描述

突袭，其实并不恰当！

因为字节跳动自研交换机，早在2019年，就开始悄悄布局了。

只是这一次，随着51.2T高性能数据中心交换机的闪亮登场，字节跳动也低调宣布，实现了“在2023年全面上线自研交换机的目标”。

废话不说，看看这款命名为B5020的51.2T交换机的细节吧。

按字节的说法，这可是全球首款51.2T全端口支持LPO的交换机，也是全球率先实现800G实际规模化部署的产品。划重点

上面视频来源于字节跳动系统技术公众号（字节跳动SYS Tech），我在二次剪辑的时候，把一些关键信息摘出来Highlight了一下。

先看一下交换机的外观和内部结构，标准机架式，4U高度，64×800GbE端口。整机交换容量51.2Tbs（其实按业界全双工的算法应该是102.4Tbps），这个容量也是当下业界单芯片盒式交换机的极限。

有人说，前面板看着挺空的，似乎2U就能摆下这些端口，为啥不把机箱做得更紧凑些（比如3U甚至2U），岂不是更能节省机房空间。

其实，字节在设计这款交换机的时候，散热、电源功率、机箱结构等等，都是做了向后兼容下一102.4T产品的考虑，且从功率密度角度，2U省空间是伪命题。

未来，单芯片102.4T时代，这个4U结构正好可以摆下128个800G端口（当然也可以是64×1.6T，这端口速度，看着就吓人啊，刚入行的时候，1G我都觉得很少见，谁能想20年后，马上要1600G了）。

在板卡设计上，字节也做了很多微创新，比如整机一张MAC-PCB板，整机内部仅用三条连接线缆。

这些极简设计可以让整机生产功率大幅减少。有助于提高生产直通率，减少故障点。

以前大家学产品规划/管理的时候，都有一条叫做DFM（Design For Manufacturing）。在这里，字节就运用得很好。

再比如，在仅用28层PCB方案的情况下，完成高密度布线设计，而且成功将全端口最大损耗控制在7d以下。

较少层数的PCB，降低了生产难度，也能更好地控制硬件成本。

在端口扇出（Fan out）设计上，字节团队摒弃了传统扇出方案（传统扇出方案在大芯片时代，远端端口难以维持信号完整性），首创了大芯片布线空间复用方案。

PCB相关的设计论文，入选了全球芯片设计领域的顶级会议DesignCon 2024，并申请了两项发明专利。

上面入选的论文一共三篇，其中两篇是PCB设计相关，还有一篇涉及800G LPO技术，因为这款交换机还在业内首度采用了800G LPO。

跟传统光模块相比，LPO光模块功耗低、延迟低，当然成本也更低。

另外，为了简化运维，这款交换机的管理引擎采用了插卡式模块化设计，替换方便。

同时管理引擎上的BMC、SSD、DDR内存等，全部都是扣卡设计，大大降低了运维难度。

有同学评价：管理引擎光模块化还不够，不支持热插拔，也不是双冗余。

其实这是对业务场景和交换机定位的误解。

这款B5020并不是模块化机箱交换机，而是一款“盒式”机架交换机，应用场景是互联网数据中心/智算中心的Leaf或者Spine。

在这样的场景下，一般采用胖树架构，而不是咱们常规园区或者企业网络中，双核心+汇聚+接入。

比如，互联网大厂数据中心一个典型的胖树网络是这样的，B5020充当的角色，就是一台高速率、高密度同时高性价比、易运维的Spine或者Leaf。

光模块

在交换机软件上，字节基于开源的SONiC，自研了Lambda OS。

不得不说，这几年SONiC的成熟度越来越高，生态也越来越好，很多互联网大厂都开始基于SONiC来开发自家的交换机软件。

关于字节的这款交换机，我们就扒到这里。

根据字节跳动的说法，他们已经实现了在2023 年全面上线自研交换机的目标。

目前大规模交付的 100G/400G 网络，全由自研交换机覆盖，硬件采用 JDM + CM 模式研发，软件则是自研的 Lambda OS。

说到这里，我们有必要谈谈硬件的研发模式：JDM+CM。

以交换机为例，业界的产品研发模式包括：

最初级的叫OEM模式，也就是大家常说的贴牌。交换机软硬件整机全是原厂提供，品牌商只需要贴标，修改下软件界面，就变成自家的品牌。

第二级叫做ODM模式，品牌商有自己的idea，提出自己的定制化需求，然后由ODM商完成设计和生产。对交换机来说，一般品牌厂家具备软件研发能力，只需要ODM定制化硬件。尤其白盒时代，这种流行度很高。

第三级叫做JDM模式，Joint Design Manufacture，联合设计制造，是客户企业（比如字节）和交换机制造商（比如数通大厂）共同参与设计和开发，企业方需要深度参与整个过程。

再往上，更纯粹的CM模式，Contract Manufacture，合同制造，也就是客户企业完全自行设计，然后委托给制造商生产。

回头看，字节交换机采用的模式就是“JDM+CM”，即联合设计制造+委托生产，这可不是贴牌，人家说自研，完全没毛病。

最后一个问题，有吃瓜群众评论，为啥字节“不务正业”非要搞交换机呢？难道字节是看重交换机那点可怜巴巴的市场吗？

非也，其实互联网大厂自研基础设施，是大势所趋，也是真实刚需。从国外的谷歌、Facebook到国内BAT，都有自研的经历。

从服务器到存储到交换机，甚至到AI芯片、DPU、主芯片，互联网巨头们一直在努力。一方面是他们用量太大，通过自研是真的可以有效降低成本。另一方面，大厂们会根据自己的业务场景需求，来定制软件和硬件，让这些设备更纯粹的扛活。

所以，更低的成本、更方便运维、极简且定制的功能，这些是大厂们看重的，其实前面视频里，字节也多次强调了成本的节省、功耗的节省、运维的简化。

这不是交换机厂商的宣传标签，这是人家真实的需求啊。

还有一点新变化，在我们常规的组网工程里，交换机的数量要远远少于主机/服务器。

但是在现代数据中心/智算中心里，尤其是大模型时代GPU服务器场景，一台8卡服务器，就要占用8个400G/800G交换机端口，再加上冗余拓扑要求，交换机的需求数量大大提升了。

光模块

（图源：鹅厂网事）

所以，你看到，国内大厂都在自研交换机，阿里云推出了磐久交换机，从100G到400G全有。

（阿里自研交换机）

鹅厂则搞出了星脉网络，而且，鹅厂不仅有交换机，还有自研的光传输呢。

这块市场有多大呢，从IDC的交换机市场跟踪数据上，我们可以大概揣摩出来。

下图橙色的部分，每次排名里那个神秘的“ODM Direct”，主要就是这类互联网大厂们干的。

光模块

所以，字节做交换机，并非「突袭」，更非玩票，而是谋定后动，顺势而为。

审核编辑：刘清

打开APP阅读更多精彩内容