曦智科技：利用光子集成电路实现伊辛模型加速

曦智科技 2023-02-10 2129

描述

近日，全球最大的光子技术盛会Photonics West 2023在旧金山举行。曦智科技光子副总裁苏湛博士受邀做了题为《利用光子集成电路实现伊辛模型加速》(Ising Model Acceleration Using Integrated Photonics Circuits)的技术演讲。他表示，随着机器学习继续快速渗透人类生活的方方面面，万亿参数大模型正在兴起，而光子芯片凭借高通量、低延迟、低功耗的特点，将在计算端与互联端都拥有巨大的发展潜力。基于此，他详细展示了曦智科技第二代光子计算处理器PACE如何通过重复矩阵乘法和巧妙利用受控噪声组成的紧密回环来实现低延迟，从而在处理伊辛问题时，展示出显著优于目前高端GPU的表现。

苏湛

Dr. Zhan Su

苏湛博士目前担任曦智科技光子副总裁，致力于利用硅光技术优化机器学习工作负载。他拥有麻省理工学院电气工程学硕士和博士学位，期间专攻开发无源和有源硅光子学集成组件，包括偏振分离器和旋转器、基于微腔的光学广播滤波器、光电探测器和片上激光器。

Photonics West

Photonics West是由国际光电学工程协会(SPIE)主办的全球最大的光子技术盛会。其通过将科学会议、行业研讨会和技术展览会相结合，展示生物医学光学、生物光子学、工业激光、光电子学、微加工、MOEMS-MEMS、显示器、量子技术等领域的前沿技术与研究。

一、机器学习市场开启万亿级大模型

2022年末，人工智能聊天机器人ChatGPT再次掀起了一波机器学习应用的高潮。它不仅能对话、写诗、撰文、编码……，还时而幽默时而深沉，让用户一时之间难以分辨到底对方是人还是机器。

机器学习正经历着前所未有的高速发展，这些进展对包括金融、电信、零售等人类生活的各方面都产生了比以往更深远的影响。

未来几年，这种增长趋势预计还将继续保持。根据Tractica数据，深度学习芯片组的全球市场将在2025年超过700亿美元。此外，从OpenAI发布的具有1750 亿个机器学习参数的GPT-3，到微软和英伟达联合发布的Megatron-Turing自然语言生成模型(MT-NLG)包含5300亿个参数，研究人员将训练比以往规模更大、能力更强的机器学习模型。

二、硅光技术让机器学习更进一步

AI模型的训练时间在过去10年间出现了指数级增长：平均每3-4个月，AI模型规模就会翻一番；AI模型训练的计算能力需求以每年10倍的速度提升。而另一边，电子芯片正接近其物理极限，并在功耗、容量、带宽等方面遭遇瓶颈，已无法满足AI模型发展需求。

光具有高通量、低延迟、低能耗的优势，可在计算端与互联端同时助力算力的提升和可持续发展：用光运算单元代替电模块时，光运算单元在线性计算中可实现比晶体管更低功耗、更低延迟和更高算力；用光网络代替电互联时，由于光介质中的信号损耗远低于电介质，通量高且对距离不敏感，可以实现不同距离间更低功耗，更高带宽的信息传输。

基于这个技术原理，曦智科技发布了光计算+光网络的技术路线，以支撑未来计算趋势。其中包括三部分技术：首先，曦智科技致力于开发利用光子矩阵计算(oMAC)优势的光电混合计算芯片；其次是连接片上chiplet的开创性片上光网络系统(oNOC)；第三是用来更有效地连接包括曦智科技的光电混合计算芯片，及其他生态合作伙伴的存储和计算单元的片间光网络系统(oNET)。

曦智科技

曦智科技技术路线

三、硅光技术让机器学习更进一步

在光电混合计算芯片方面，2021年，曦智科技团队发布了包含64 x 64光学矩阵，单个光子芯片中集成超过10000个集成光子元器件的高性能光子计算处理器PACE（Photonic Arithmetic Computing Engine，光子计算引擎）。

曦智科技

高性能光子计算处理器PACE

PACE的核心部分由一块集成硅光芯片和一块CMOS微电子芯片以3D封装形式堆叠而成。对于每个光学矩阵乘法，输入向量值首先从片上存储中提取，由数模转换器转换为模拟值，通过电子芯片和光子芯片之间的微凸点应用于相应的光调制器，形成输入光矢量。接着，输入光矢量通过光矩阵传播，产生输出光矢量，并达到一组光电探测器阵列，从而将光强转换为电流信号。最后，电信号通过微凸点返回到电子芯片，通过跨阻放大器和模数转换器返回数字域。

曦智科技

光子矩阵计算实现方式

PACE旨在解决组合问题，这种问题多应用于生物信息学、交通调度、电路设计、材料发现等领域。这类问题通常属于“NP-complete Problem”（多项式复杂程度的非确定性问题），意味着在多项式时间尺度下无法通过数学方法解决的问题。然而，一旦一个NP-complete问题得到解决，就可以相对容易地将解决方案映射到另一个NP-complete问题上。伊辛问题(Ising problem)本身就是一个NP-complete问题，从理论上来说，求解伊辛问题的方式也可以用来尝试求解其他的 NP-complete 问题。伊辛模型是一个描述临界现象的基本模型，它考虑每一个自旋有两种可能的状态，自旋和自旋之间存在相互作用。这一模型可被推广用于描述广泛的物理现象甚至社会经济活动。解决这类问题需要用到大量的连续矩阵乘法，而光子芯片非常适合这种计算。首先，光学矩阵具有低功耗、低延迟的特点；其次，NP-complete 算法具有迭代性，连续的矩阵乘法取决于先前的结果，这将有助于最大限度减少由系统中电子部件带来的瓶颈。因此在做矩阵乘法时不需要频繁的内存读取；此外，噪声在这类算法里的必要性反而刚好利用了光作为模拟运算的劣势。

曦智科技

PACE架构

曦智科技将PACE系统时钟设置为 1GHz 频率，每个循环中的延迟配置为 1 ns 至 30 ns，所有迭代的解决方案都记录在系统内存中。结果显示，在 50 次测试运行中，在启发式递归计算下收敛到最佳解决方案的收敛率为98% - 100%，最低延迟为 3ns。由于光学矩阵的超低延迟特性，测试显示，PACE可在3纳秒内完成伊辛问题单次迭代计算，速度可达传统GPU的数百倍。

写在最后

过去几年，随着传感、AI等光子应用领域的蓬勃发展，光子集成电路的优越性正受到越来越多人的关注。与此同时，随着收发器产品的大批量出货，及制造工艺成熟度不断提高，硅光技术的生产成本呈下降趋势。通过光子集成电路 (PIC)和电子集成电路 (EIC)更紧密的集成，光域和电域之间的数据转换已变得更快、更高效，人们开始将重点放在了信号处理上——将电域中的高延迟过程转移到光域中，以实现特定领域的加速。

机器学习就是一个非常合适的应用领域。虽然光不擅长逻辑运算，但却可以高效地进行如矩阵乘法的线性运算。由于机器学习需要进行大量矩阵乘法运算，因此可以通过开发特定的硬件来针对特定领域实现加速。

审核编辑：李倩

打开APP阅读更多精彩内容