AI数据中心为什么需要OCS全光交换机

中科院半导体所 2026-06-15 159

描述

文章来源：老虎说芯

原文作者：老虎说芯

本文主要介绍了OCS全光交换。

过去谈AI硬件，大家最关注的是GPU、HBM、先进封装、CPO、硅光和高速光模块。但当AI集群从几百张卡扩展到几千张、几万张卡时，一个更底层的问题开始变得突出：芯片

再强，如果它们之间“说话”太慢、太贵、太耗电，整个AI工厂的效率依然会被网络拖住。

这就是OCS开始受到关注的原因。

OCS，全称 Optical Circuit Switch，光电路交换机，也常被称为全光交换机。它不是普通意义上的以太网交换机，也不是简单的光模块升级，而是一种可以在光纤之间动态建立物理光路的设备。更通俗地说，OCS就像AI数据中心里的“光学立交桥”：当不同GPU机柜、TPU机柜、训练Pod之间需要大规模通信时，它可以直接把光路切好，让光信号沿着专用通道过去，而不必每一跳都进电交换机里排队、解析、转发。

数据中心

这件事听起来像通信设备创新，但它背后其实有很强的半导体属性。尤其在当前最主流的3D MEMS自由空间光交换路线中，核心部件是MEMS微镜阵列、光纤准直器阵列、透镜阵列、滤光片、环形器、驱动控制和闭环标定系统。也就是说，OCS真正的核心不是一个机箱，而是里面那颗“光学发动机”——MEMS Optical Core。

一、AI数据中心为什么需要OCS?

AI训练和传统互联网业务最大的不同，是通信模式发生了变化。

传统云计算业务更像城市快递，每个包裹大小不同、目的地不同、时间不固定，所以需要一个非常聪明的邮局系统：交换机要看地址、查表、排队、转发。这就是电交换机EPS擅长的事情。

但AI训练更像一个巨大的工厂流水线。成千上万颗GPU/TPU需要反复交换中间计算结果，比如梯度同步、参数更新、集合通信、专家并行和张量并行。很多流量是大颗粒、周期性、可预测的。此时，如果所有数据都要像快递一样进邮局排队，网络功耗、时延和成本都会快速上升。

OCS的逻辑则像铁路调度系统。它不打开车厢检查里面装了什么，只负责提前把轨道切好：从A机柜到B机柜，建立一条直达光路。光信号不需要在中间转换成电信号，也不需要交换芯片逐包处理。这样做有三个好处。

第一，降低功耗。传统电交换需要光-电-光转换，需要SerDes、交换ASIC、缓存和包处理。OCS的数据路径主要是光路重定向，能减少中间电处理环节。

第二，降低时延。AI训练中很多任务是同步的，一个节点慢，全局都要等。OCS通过减少中间处理层级，能够降低网络路径中的排队、转发和抖动。

第三，提升网络寿命。电交换机往往跟端口速率和交换芯片代际绑定，400G、800G、1.6T不断升级，设备更新压力很大。而OCS对速率和协议更加透明，只要光链路预算满足，就有机会跨代继续使用。

所以，OCS不是简单地替代电交换机，而是在AI数据中心里增加一层“可编程物理光连接层”。电交换机继续负责灵活包处理，OCS负责把稳定的大流量光路直接打通。

二、OCS不只是交换机，更是算力资源组织工具

如果只把OCS理解为“光交换设备”，容易低估它的价值。OCS更重要的意义在于：它让数据中心的物理拓扑从固定布线，变成可以软件定义的资源。

过去数据中心网络通常依赖多级Clos架构，服务器连接ToR，再连接Leaf、Spine。规模越大，交换层级越多，光模块、交换芯片、功耗、故障点和运维复杂度都会增加。OCS引入后，可以在一些场景中替代部分Spine层，或者在机柜、Pod、集群之间建立动态直连光路。它就像把固定道路变成可切换的高速路网：今天某个训练任务需要A、B、C三组机柜高速通信，系统就把这些机柜用光路组织成一个临时“超级节点”;任务结束后，光路释放，再服务其他任务。这也是为什么OCS会和AI调度系统、集群管理系统绑定在一起。未来AI数据中心竞争，不只是“谁买到更多GPU”，而是“谁能把这些GPU更高效地组织起来”。OCS正是这种组织能力的底层基础设施。

三、Scale-Up、Scale-Out、Scale-Across：OCS的三类需求

AI网络扩展大致分为三类：Scale-Up、Scale-Out和Scale-Across。

Scale-Up是纵向扩展，强调单节点、单机柜或相邻机柜之间的极高带宽互联。可以理解为把更多GPU组成一台更大的机器。这个场景对时延和带宽极其敏感，OCS可以帮助机柜之间建立更直接的光路，减少网络绕行。

Scale-Out是横向扩展，强调多个节点、多个机柜、多个Pod之间协同。大模型训练往往不是几十张卡的问题，而是几千张、几万张卡如何组成一个稳定的训练集群。OCS的价值在于可以按任务重构拓扑，让网络结构匹配模型的通信结构。

Scale-Across是跨数据中心扩展，即把地理上分散的数据中心连接起来，形成更大的AI工厂。这类场景更关注长距离互联、资源池化、故障调度和成本控制。OCS不是唯一方案，但代表了一种趋势：网络不只是传输数据，而是参与算力资源编排。

以Google TPU集群为例，一个TPU v4 SuperPOD由64个Rack构成，共4096个TPU v4芯片。Cube内部通过PCB和铜缆实现高速连接，外部通过光模块和OCS走光纤链路。可以理解为：近距离用电，追求极致密度和低成本;远距离用光，追求带宽、距离和可重构能力。

这种“电负责短程、光负责中远程、OCS负责重构”的架构，很可能成为未来AI集群网络的重要方向。四、OCS与传统电交换的根本区别

OCS和EPS的区别，不只是“一个用光、一个用电”，而是交换思想完全不同。

EPS是包交换。它关心每个数据包的地址、队列、优先级和转发路径。它非常灵活，适合随机、突发、小颗粒流量。但它也必须承担光电转换、包解析、缓存排队和交换芯片处理带来的功耗与时延。

OCS是电路交换。它不关心数据包内容，只建立输入端口到输出端口之间的物理光路。光路一旦建立，数据就像列车走专线一样通过。它的缺点是需要提前调度，不能像EPS那样灵活处理每个突发包;但它的优点是数据路径极其干净，功耗低、时延低、协议透明。

因此，OCS适合稳定大流量，EPS适合灵活小流量。未来AI数据中心大概率不是“OCS取代EPS”，而是“OCS+EPS协同”：用电交换保留灵活性，用光交换降低大颗粒通信成本。

五、为什么3D MEMS是当前主流路线?

OCS有多条技术路线，主要包括MEMS、数字液晶/LCoS、直接光束偏转、硅光波导等。

MEMS路线的核心，是用微米级可动镜面改变光束方向。系统由输入光纤准直器阵列、MEMS微镜阵列、输出光纤准直器阵列组成。光从输入光纤出来后，先被准直成平行光，再被MEMS微镜反射到目标输出端口。这个过程像一个微型“光学调车场”，每一面微镜都像一个可精确控制的道岔。

MEMS的优势是高端口、低插损、协议透明、偏振不敏感、宽带工作能力强。对于AI数据中心来说，这些特性非常关键。因为数据中心要支持400G、800G甚至未来1.6T链路，还可能使用不同协议、不同波长和不同光模块。如果交换核心对协议和速率敏感，系统升级就会变得复杂。

液晶/LCoS方案没有机械运动部件，成熟度也较高，但切换速度相对慢，且光路中涉及偏振处理，更适合不频繁切换的场景。压电陶瓷方案光路简洁、损耗低，但端口规模扩大后机械位移和结构复杂度会制约扩展。硅光波导方案理论上切换速度很快，适合集成化方向，但当前高端口下插损、串扰、热控制和可靠性仍是挑战。

数据中心

因此，在当前高Radix、低插损、协议透明的数据中心OCS场景中，3D MEMS自由空间方案仍然是最现实的主流选择。

六、OCS真正的壁垒，不是“光能不能切过去”

很多人第一次看OCS，会觉得原理不复杂：不就是一面小镜子把光反射到另一根光纤吗?但真正产业化的难点，恰恰不在“能不能切过去”，而在“能不能长期、稳定、低损耗地切过去”。

第一个壁垒是低插损。插损可以理解为光在路上损失了多少能量。AI数据中心高速链路预算非常紧张，OCS每多损失1dB，光模块接收端的余量就少一分，系统可能需要更高功率、更高成本的光模块来补偿。实验室中展示一条低损耗路径不难，难的是几百个端口、上万种连接组合，每一条路径都保持低插损。

第二个壁垒是低回损。回损可以理解为光的“回声”。高速PAM4信号对反射很敏感，反射过大就会恶化信噪比和误码率。尤其在双向单纤、环形器等方案中，回损控制更是关键。

第三个壁垒是温漂控制。MEMS微镜、准直器、透镜、胶水、金属结构、陶瓷基座都会热胀冷缩。光束耦合窗口非常小，温度变化导致的微小偏移，可能就会让光斑偏离目标光纤。OCS要进数据中心，必须在温度变化、振动、长期运行后仍能保持耦合。

第四个壁垒是闭环校准。高端口MEMS OCS不是调好一次就永远稳定。它需要监控光、传感器、相机或功率监测系统，实时判断光路状态，并通过控制算法修正MEMS角度。真正优秀的OCS一定是“光学+电子+算法”的闭环系统。

第五个壁垒是自动化装调。OCS的装配精度很高，光纤阵列、透镜阵列、MEMS阵列之间需要亚微米级甚至更严苛的对准。手工调出样机不代表可以量产。产业化要看自动化装调、全连接标定、测试效率和一致性。

所以，OCS的工程本质不是“做一个会动的镜子”，而是做一个能在数据中心长期可靠运行的精密光学系统。

七、MEMS Optical Core：OCS产业链的核心价值点

如果把OCS整机比作一辆车，机箱、电源、风扇、软件接口像车身和底盘，那么MEMS Optical Core就是发动机和变速箱。

MEMS Optical Core通常包括MEMS微镜阵列、光纤准直器阵列、透镜阵列、滤光片、二向色镜、环形器、监控光路、驱动电路、热稳结构和标定算法。它决定了OCS最关键的指标：插损、回损、串扰、切换时间、温漂、可靠性和端口规模。

这也是为什么很多国产企业不一定要一开始就直接做OCS整机。整机不仅要求光学核心，还要求控制系统、网络管理、SDN接口、SONiC/gNMI生态、机房运维、热插拔、电源冗余和客户现场交付。对于新进入者来说，更现实的切入点是Optical Core：先把最难、最有价值的光学核心模块做好，再进入整机厂、网络设备厂、云厂商自研平台或光模块产业链。

从产业分工看，上游包括MEMS微镜阵列、准直器阵列、透镜、滤光片、环形器和精密结构件;中游是OCS设备集成与解决方案;下游则是AI数据中心、智算中心和云厂商。技术壁垒最高、国产替代价值最集中的，往往是上游核心器件和光学核心模块。

八、国产产业化：看样机，更要看量产能力

国内OCS产业链正在升温，但判断一家企业是否真正具备产业化潜力，不能只看新闻、概念和样机，而要看几个硬指标。

第一，看端口规模。32×32、64×64、96×96、128×128是不同阶段。端口越高，光路设计、MEMS阵列一致性、驱动通道、校准复杂度都会指数级上升。

第二，看全连接插损分布。不是看最佳路径，而是看所有路径的P50、P95、P99和最差值。客户真正关心的是系统级可用性，不是一条路径的漂亮数据。

第三，看回损、PDL、串扰和高速误码。OCS最终要接入400G/800G/1.6T光模块，跑真实业务链路，验证BER、FEC margin和长期稳定性。

第四，看温循和寿命。温度循环后，插损是否漂移?长时间运行后，MEMS角度是否稳定?封装应力是否释放?镜面镀膜是否老化?这些决定产品能否进入数据中心。

第五，看自动化装调和测试系统。OCS不是小批量实验室仪器，而是未来可能进入大规模AI集群的基础设施。没有自动化装调、自动标定和批量测试能力，就很难支撑商业化。

第六，看客户验证。OCS必须进入真实AI网络架构，与调度系统、光模块、交换机、运维平台联调。只有完成客户PoC、可靠性测试和系统级验证，才算真正接近产业化。九、产业判断：不要只看“有没有OCS”，要看“有没有光学核心能力”

OCS是AI算力集群扩张下的高景气方向，但产业化节奏不会一蹴而就。它不会在短期内全面替代电交换机，而会先在特定高价值场景落地，比如Spine replacement、AI训练Pod重构、TPU/GPU集群光互连、备份资源池化和物理数据中心切片。

真正值得重视的，不是简单宣称“布局OCS”，而是能拿出可验证指标：低插损、低回损、低温漂、高一致性、可标定、可维护、可量产。

结语：OCS是AI数据中心网络的“光学底座”

AI数据中心的竞争，已经从单点芯片性能，走向系统级效率竞争。GPU、HBM、先进封装解决的是“算得快”;光模块和高速互连解决的是“传得快”;而OCS解决的是“如何把算力资源组织得更聪明”。

它像数据中心里的光学立交桥，让大量高带宽流量绕开拥挤的电交换层;它也像可编程的光纤配线架，让GPU/TPU资源按任务动态重组。更重要的是，它把MEMS、精密光学、光通信封装、驱动电路、热设计、自动化装备和系统软件拉到同一个产业交叉点上。

打开APP阅读更多精彩内容