英伟达推CPO,156.25MHz晶振反而更关键?

描述

 

最近光模块很火,中际旭创、新易盛动不动就是翻倍增长。

但我注意到一个细节变化:英伟达在下一代数据中心架构里,开始频繁提CPO这个词。

CPO是光电共封装,简单说就是把光器件直接贴到交换芯片上,减少中间那堆走线和连接器。

这事儿大家都在讨论它对光模块厂商有什么冲击。

但我更想聊的是另一一个变化——为什么 CPO 反而让 156.25MHz 差分晶振变得更关键?

光模块拼的是什么

很多人以为光模块赛道比的是带宽,800G、1.6T、数字标得越大越好。

但真正做过高速系统的工程师知道,光模块比拼是稳定性。

尤其当一个AI集群有上万张GPU的时候,某条链路偶尔抖动一下,可能影响的是一组训练任务的进度。

现在光模块速率越高,这个问题越难解决。

因为PAM4调制下,眼图裕量本来就小。链路留给时钟的容错空间,几乎是在被一点点压缩的。

 

156.25MHz 是什么角色

高速光模块,156.25MHz 一个很特殊的频点。

400G/800G光模块、交换机、AI服务器内部的SerDes,几乎清一色用它作为参考时钟源。

这不是偶然,156.25MHz 容易和高速链路做整数倍频,而且差分输出阻抗好匹配。

所以它不是某个厂商的特殊选择,而是整个高速互连体系里形成的事实标准。

这带来的结果是:一旦这个时钟底噪偏高,SerDes的误码率会直接恶化。丢包、链路重训练这些问题,会从底层一路往上冒。

CPO 为什么让问题更复杂

CPO 是把光模块做到离交换芯片更近,好处是功耗低、路径短。代价是整个系统的电磁环境变得非常复杂。

功耗密度更高,热量更集中,高速SerDes密密麻麻挤在一起。这种环境下,电源纹波、相位噪声、EMI串扰,每一项都比传统架构更难控制。时钟作为整个系统的基准源,这时候反而承受更大的压力。

随着800G和CPO开始进入高速互连主流方案,系统留给参考时钟的容错空间已经越来越小。

以前选晶振,很多项目更关注:频率对不对,能不能正常起振。

现在高速系统更关注的是:

近端相位噪声

RMS Jitter

温漂表现

长期老化

高低温一致性

因为这些指标,会直接影响SerDes链路稳定性。

过去,这类要求更多出现在通信基站、航空航天等高可靠场景。

但现在,AI数据中心和800G光模块,也开始逐渐往这个方向靠。

至少在短期内,CPO还很难完全替代可插拔光模块。

成本、良率、散热、维护性,行业还需要继续磨合。

但有一点已经越来越明显:随着链路速率越来越高,系统对参考时钟的抖动和相位噪声,也开始变得更敏感。

很多人会把156.25MHz差分晶振当成普通时钟器件。但到了400G/800G系统里,它已经会直接影响链路同步、误码率,以及长时间运行后的稳定性。

很多高速系统的问题,最后查到根源,往往都绕不开时钟。

所以相比后期排障,前期选型时多看几眼Phase Noise和Jitter曲线,通常会省掉很多麻烦。

 

Q&A常见问题

Q:156.25MHz 差分晶振和普通晶振有什么区别?

A:输出方式不同。差分晶振输出两路互补的信号(LVPECL/LVDS/CML),抗共模干扰能力更强,适合高速链路做时钟分配。

Q:现在的AI服务器光模块,用的是哪种差分晶振?

A:3225封装 LVPECL 输出比较多。156.25MHz,-40°C~+85°C 或 +105°C 都有,根据散热方案来选。

Q:为什么 CPO 方案在意时钟底噪?

A:CPO 把光引擎和交换芯片靠得很近,高频噪声环境更恶劣。参考时钟底噪高的话,噪声会耦合到 SerDes 端,导致链路BER恶化。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分