如何利用片上光网络技术实现低延迟、低能耗的高效片间互连系统

xinpianzhushou 2023-03-08 2668

通信网络

669人已加入

描述

第29届IEEE高性能计算机架构国际会议（HPCA 2023, the 29th IEEE International Symposium on High-Performance Computer Architecture）在加拿大蒙特利尔召开。期间，在第二届“高性能芯粒与互连架构国际研讨会”（The 2nd International workshop on High Performance Chiplet and Interconnect Architectures, HiPChips）上，来自清华大学、AMD、ARM、英特尔、华盛顿大学、哈佛大学、开放计算项目基金（OCP）、曦智科技等学界及业界专家，就互连技术的创新研究和行业标准，及其如何影响芯粒架构设计及软件系统生态展开了讨论。

曦智科技作为全球光电混合计算领军企业首次受邀参加国际计算机架构顶级会议。曦智科技联合创始人兼首席技术官孟怀宇博士在HiPChips上发表了《片上光网络在大规模芯粒（Chiplet）架构上的应用》的主旨演讲，介绍在当下面临算力需求的骤增，曦智科技如何利用片上光网络技术实现低延迟、低能耗的高效片间互连系统，助力大规模芯粒架构的实现。

孟怀宇博士

Dr. Huaiyu Meng

孟怀宇博士现任曦智科技联合创始人兼首席技术官，负责公司技术路线的制定、产品定义及知识产权保护。他拥有麻省理工学院电子工程博士学位，主要研究方向为集成硅光技术在人工智能、数字通信生物传感等方向的应用。

HiPChips

“高性能芯粒与互连架构国际研讨会”（International Workshop on High Performance Chiplet and Interconnect Architectures, HiPChips）于2022年在国际计算机架构顶会International Symposium on Computer Architecture（ISCA）上由学术界和产业界专家共同发起，旨在探讨Chiplet（芯粒）和互连技术对未来计算架构的影响，从而推动工业和学术界加速合作、共建Chiplet生态。

一、单节点算力提升的现有路径与挑战

机器学习 (ML) 、人工智能 (AI) 应用的广泛部署一直在推动数据中心和边缘计算需求不断增长。ChatGPT千亿级大规模参数模型的出现，更是对单卡算力的上限提出了超乎想象的挑战。单节点内算力的纵向提升和多节点间的算力横向扩展同步发展，成为未来数据中心算力和算效提升不可或缺的两个方面。

随着摩尔定律的放缓，单节点内的算力纵向提升出现了不同的思路，目前的解决方案主要有计算架构的创新和扩大芯片面积这两种方式。孟怀宇博士将异构计算架构创新归纳为以下三个方面：

早期的通用计算架构创新，包括指令级别并行（Instruction-Level Parallelism，ILP），在芯片上集成更多逻辑功能从而改善“内存墙”问题（以谷歌TPU为例），以及超线程、多核再到众线程架构等。

领域专用架构（Domain Specific Architecture，DSA）

生物计算、量子计算、基于忆阻器的存内计算等非冯·诺伊曼架构

边缘计算

通过架构创新实现硬件性能提升

而由于晶体管密度提高的放缓，通过扩大芯片面积实现底层算力的提升成为另一种自然的探索方向。但受限于倍缩光罩的尺寸，为了突破单个芯片面积的上限，芯粒系统应运而生，较为具有代表性的是英特尔的Ponte Vecchio GPU，由超过40个芯粒组成，总面积超过了3,000mm²，以及Cerebras Systems的晶圆级计算引擎（Wafer Scale Engine，WSE），其总面积超过了40,000mm²。

边缘计算

英特尔Ponte Vecchio GPU和Cerebras Systems晶圆级计算引擎

然而芯片面积的增大导致数据搬运的时间和能耗成本随之增加，电在进行数据传输时，由于距离增大导致的能耗提升显露无疑；同时，由于较大的计算任务通常会被映射到多个计算单元，为了避免长距离数据搬运，只能用更为复杂的算法来优化计算任务的映射。

边缘计算

大规模MCM需要更高效的互连解决方案寻找超越传统电互连的物理层创新，以及易用性强的计算任务适配软件栈，成为高效可扩展芯粒系统急需解决的技术瓶颈。

二、片上光网络助力高效芯粒系统

针对芯粒系统在规模扩大的同时带来的信号传输瓶颈问题，孟怀宇博士介绍了曦智科技的片上光网络（Opitical Network On Chip，以下简称oNOC）技术方案，oNOC的技术优势主要体现在：

光信号在晶圆级别的传输中 衰减小

光的 功耗、延迟 对距离不敏感

集成硅光芯片作为有源中介层

光电转换可在集成硅光芯片中完成

边缘计算

曦智科技oNOC系统侧视图及俯视图如上图所示，图(a)中两个电芯片被堆叠在同一个光芯片上，电芯片之间的数据传输由光芯片上的光波导链路实现。基于光传输对于距离不敏感的特点，片上光网络可以包括大量的长距离通道。如图(b)所示，光芯片能够扩展到整个晶圆，从而实现晶圆级的光互连网络，可支持数十个以上的电芯片互连，实现二维环绕等各向同性网络拓扑（如图(b)中橙线所示）。

在这样的拓扑下，将计算任务映射到不同芯片的工作被极大简化，并且达到更高的利用率。不仅如此，片上光网络也凭借其高带宽和低延迟的特性可以为面向未来AI加速器的多形态计算架构（Polymorphic Architecture）提供关键的片上互连基础设施。

三、全球首款oNOC光电混合计算芯片

在HiPChips上，孟怀宇博士也分享了曦智科技在片上光网络（oNOC）技术上的最新进展。它由一块硅光芯片和一块CMOS电子芯片，通过中介层垂直封装构成。其中，光波导替代了铜导线，形成片上光网络进行数据传输。该系统的通道数为512，单通道最长广播距离50mm，广播延时1ns，单通道频率4GHz，片上总带宽2Tbps。实测数据显示，该计算系统能在1ns内完成多个计算核之间All-to-AIl的数据广播，这将大幅提高每个计算核的算力利用率。

边缘计算

曦智科技oNOC光电混合芯片

基于该计算芯片，曦智科技正在加速落地第一款商用级光电混合计算加速卡，并搭载公司自研软件栈，在商用场景下发挥低延迟、低功耗的优势。

写在最后

集成硅光技术得益于光子的物理优势，一方面可以从计算底层技术原理的颠覆式创新，提供一条超越摩尔定律的算力提升路径，我们在前文《利用光子集成电路实现伊辛模型加速》（点击阅读）中有过一定的阐述。另一方面，晶圆级片上光网络技术使得异构计算芯片系统可以和传统的电芯片以及存储芯片有效协同，助力大规模高效芯粒系统的实现。 但正如孟怀宇博士在结束演讲时所说，片上光网络技术的大规模应用仍面临一些挑战。芯粒架构整体生态系统的成熟尚需时日，芯粒间需要有标准的协议接口，集成硅光供应链成本需通过量产得到降低。这些问题需要全行业的共同努力协作才能突破解决，这也是“高性能芯粒与互连架构国际研讨会”等国际交流的意义所在。

编辑：黄飞

打开APP阅读更多精彩内容