生成式AI的I/O瓶颈,或许可以用光子IC来突破

描述

电子发烧友网报道(文/周凯扬)从回答问题对话到写文章,ChatGPT这类应用已经帮我们展示了生成式AI带来的第一波震撼,从OpenAI的路线也可以看出,他们已经在努力把处理对象从单纯的文字,转换成图片、音频乃至视频了。但这也意味着待处理的数据大小以数量级提升,毕竟再长的文本和视频文件大小比起来还是相去甚远。
 
I/O瓶颈
 
要想进一步提升生成式AI的处理性能,我们就不得不看下背后为其提供动力的基础设备,也就是GPU、AI加速器、高带宽内存和光模块。AI模型发展的早期,只需单个GPU甚至是CPU就能处理简单的AI模型,而如今这些先进的AI模型,没有大型机柜组成的服务器和成千上万个GPU,是很难运行起来的。
 
比如特斯拉老版的自动驾驶训练超算,就是由720个节点的8x英伟达A100 GPU构成的,算力高达1.8 EFLOPS。小鹏于去年建成的智算中心扶摇算力规模高达600PFLOPS,预计也用到了上千块GPU。
 
尽管部署大量GPU是扩展算力的最直接途径,但与此同时传统的互联方案还是创造了巨大的I/O瓶颈,严重影响了GPU的性能利用率,导致更多的时间花在了等待数据而不是处理数据上。
 
为此,常用的方案变成了添加更多的GPU来弥补性能和计算效率上的损失,可这样的趋势已经在逐渐被淘汰,因为从减少碳足迹的角度来看,全球范围内各个国家都在开始考虑减少数据中心的能源损耗了。
 
光子IC
 
除此之外,另一解决方案就是利用光模块来解决速度慢的节点间电气连接,然而光模块成本较高、密度较低,所以需要更高速、端到端又能降低成本互联方案,即芯片到芯片之间的光学I/O。
 
利用更高带宽的光学连接取代诸多并行和高速串行I/O通道,这一愿景促使了行业对近封装光学和共封装光学的追求。相较外部可插拔的管模块,光子IC可将光学I/O集成到GPU封装内部,用来与其他的GPU节点进行直接通信,进一步提高了AI算力的扩展效率,满足了当下持续增长的AI需求。
 
近期,Sivers Semiconductors就在欧洲光通信展览会上展出了他们打造的八波长分布式反馈(DFB)激光器阵列,该阵列集成在了Ayar Labs的SuperNova多波长光源中,支持GPU之间最高4TB/s的数据传输。根据Ayar Labs提供的数据,新的光源配合它们的TeraPHY封装内光学I/O Chiplet,还提供了低上10倍的延迟和8倍的传输能效。
 
这样的表现无疑极大地提升GPU的性能利用效率,解决当下生成式AI在I/O性能瓶颈上的燃眉之急。尽管光子计算芯片目前尚不能替代传统的电子半导体器件,但从解决带宽和延迟需求上已经有了长足的进步。
 
写在最后
 
面对生成式AI模型大小的指数级上涨,以及逐渐庞大起来的推理数据量,传统的I/O性能必然会面临淘汰,而光子IC为高性能的AI芯片提供了一条更快更高效的通路。不过仍然需要注意的是,光子IC与传统IC还有设计与制造上的区别,比如需要特定的设计工具以及工艺等。因此要想发展光子IC跟上这一波趋势,就必须从EDA和晶圆代工厂开始抓起。
 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 相关推荐
  • I

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分