跨入光子时代？曦智科技发布光子计算处理器，运行特定算法性能超3080百倍！

Hobby观察 2021-12-23 4334

描述

电子发烧友网报道（文/梁浩斌）随着纳米制程的不断往前推进，延续近50年的摩尔定律已经日渐式微。AI、5G、物联网等新兴领域的蓬勃发展带动了全球数据的爆炸式增长，对算力的需求增速远高于摩尔定律所预测的算力供给增速，传统的电子芯片只能通过增大面积与功耗来完成更多的计算，已逐渐无法满足日益增长的数据处理与节能要求。

在探索超越摩尔定律的路上，先进制程已经开始发挥作用，与此同时，由于具备高通量、低延时、低功耗的特性，用光代替电解决部分计算的也是突破现有瓶颈的途径之一。而此前一直只存在于实验室的光子芯片，最近有了新的进展。

近日，曦智科技（Lightelligence）发布了其最新高性能光子计算处理器——PACE（Photonic Arithmetic Computing Engine，光子计算引擎）。

曦智科技创始人兼首席执行官沈亦晨博士表示：“PACE的发布具有里程碑式的意义：它成功验证了光子计算的优越性，为集成电路产业提供了新的发展路径。”

曦智科技成立于2017年，成立4年以来，公司总融资额已经超过10亿人民币，在波士顿、上海、杭州、南京等地均设立了办公室及实验室，全球员工接近200人，中国员工超过100人。核心研发团队来自麻省理工学院，70%的芯片设计师拥有十年以上半导体从业经验。

2017年，沈亦晨博士以第一作者和通讯作者的身份在《自然－光子》杂志发表封面论文，开创性地提出了光子人工智能计算的新路径。也正是由于这篇论文，在后来吸引了十多家初创公司相继建立。

2019年4月，曦智科技推出了全球首款光子芯片原型板卡，成功将当时占据半个实验室的整个光子计算系统集成到了常规大小的板卡上，验证了以光子替代电子进行高性能计算的开创性想法。当时的原型板卡上集成了100个光子器件，运行系统时钟仅有100kHz。

两年后的今天，这次发布的PACE已经集成了10000个光子器件，运行系统时钟更是达到了1GHz。跨越几个数量级的性能提升，他们是如何做到的？

电子芯片现存的三大瓶颈

自2012年以来，神经网络和计算模型的大小就开始爆炸性增长，平均每3到4个月，计算模型的大小就会翻一倍。但持续增长的模型，明显受到算力底层的限制，制约了人工智能的进一步发展。

沈亦晨博士认为，目前电子芯片的发展遇到了三个主要瓶颈：算力、数据传输和存储。其中，算力瓶颈主要来源于随着制程工艺接近物理极限导致的摩尔定律失效，以及功耗和发热问题。

随着晶体管尺寸越来越小，晶体管上的电子隧穿现象也愈发严重，因此即使将晶体管做得更小，单个晶体管在进行运算时的功耗也无法进一步降低。在这样的前提下，业界有两种解决路径，单芯片面积增加或多芯片互联。

但随着面积增大，需要更长的铜导线进行数据传输，而铜导线的发热量和损耗与长度成正比，即芯片面积越大，发热越大、功耗越高。

同样，多芯片互联同样存在一些问题。首先片间互联带宽有限，即互联效率低，其次铜导线依然会造成系统功耗提高，比如通过电将100个芯片或板卡互联后，算力可能只比单个板卡提高10倍左右。

因此，沈亦晨博士认为，光是最适合解决这些困境的底层技术方式。“首先，在数据搬运上面，光已在光通信领域充分证明其领先性和优势了。目前所有的长距离通信，包括数据中心里服务器和服务器之间的数据都是通过光纤代替铜导线进行的。我们也认为，光进入到芯片去帮助运算是一个必然的方向。”

曦智光子计算的三个主要技术

前面说到光是解决目前电子芯片算力、数据传输和存储三大瓶颈的底层技术方式。而从大数据、人工智能等应用角度去看，越来越多的算力需求是来自于线性运算，而曦智发明的用光高效做线性计算的方式，就是光芯片的重要优势之一。

曦智将其技术分为三个部分：oMAC（通过光来做矩阵的乘积累加运算）、oNOC（片上光网络）、片间的光网络。据沈亦晨博士介绍，oMAC是一种模拟计算，通过光模拟信号代替传统电子进行数据处理，数据可以加载在光的强度或者相位上面，通过在波导里的传播相互干涉，同时进行运算。主要实现的方法是采用和现在电芯片制备工艺CMOS兼容的硅光工艺平台，用光电协同设计来进行光的矩阵乘法。

这里的优势是，首先，光的矩阵乘法并行能力更强，它能以更高的通量进行运算。同时，它的能效可以媲美甚至优于现在的电子芯片，因为光在做传播的时候本身不会发热。另外，它完成一个矩阵运算所要花的时间少，也就是延时远远低于电芯片的延时。最后，硅光的工艺对于工艺制程的要求相当低，比如65或者45纳米的CMOS工艺线就可以满足现在光芯片、光计算所有的要求。硅光未来技术迭代不会需要对制程有特别的要求，更多是从其他方面进行技术迭代，比如主频、波长数量还有不同的模式。

而oNOC也就是片上光网络，主要通过用波导代替铜导线的方式，在片上进行数据传输，包括实现片与片之间的光通信。还有比较大芯片上光的总线的通信，在光芯片上构建一个固定通信网络拓扑，通过光相连，实现基于片上光网络的数据交互。最后，采用一些波分复用的方式来传播数据，优势是带宽更大，能耗更低，延时会远远优于铜导线，并且对距离不敏感。

最后的片间光网络即将上述片上光网络进一步拓展到多个板卡、更多服务器之间。通过光纤将芯片和芯片直接互联起来，芯片之间数据通过光来传输。

全球唯一展示光子优势，PACE超3080百倍！

曦智认为，光电混合计算最重要的技术演进的点，就是不断增加单个光芯片上的器件集成度。实际上，从最早的4x4乘法器，到64x64乘法器，再到目前光电混合2.5D封装，曦智在四年时间里，已经实现一万个光器件集成在一块芯片上。

也正因为集成度上的突破，PACE是曦智科技目前可以对外展示最新的可运作的计算处理器，是目前已知全球集成度最高的光子芯片，同时也是全球第一个展示出光子优势的计算系统，能够在一些有商业化应用前景的算法上，比目前电子芯片提高数量级的优势。

那么光子计算的优势在什么领域能体现出来？NP-Complete Problem（多项式复杂程度非确定性问题，NPC）可以说是目前全球最难以高效解决的数学问题，比如生物信息里蛋白质结构的预测、物流交通调度、芯片设计、材料研发等都会应用到。但目前NPC没有多项式算法，只能用穷举法逐个检验最终得到答案。但如果我们能够有效解决其中一个问题，它也可以被映射到其他问题上去。

而由于光子芯片的特性，PACE可以通过重复矩阵乘法和巧妙利用受控噪声组成的紧密回环来实现低延迟，于是在进行NPC问题的计算时，PACE就可以相比GPU快上百倍。所以，PCAE在解决NPC问题上有比较多的商业应用前景。

据了解，与英伟达RTX3080 GPU相比，在同时运行一样的循环神经网络算法时，PACE所需时间只有3080的1%不到。

采用光电混合结构，基于现有生态打造

实际上，PACE的结构由光芯片和电芯片这两部分组成。电芯片上主要做数据的存储，以及数模混合的调度，光芯片上主要做数据的计算。这里可以理解为光芯片只是一个底层的硬件支持，而信息转换和软件相关的都采用电芯片进行数字处理，所有指令、编译、软件，都会在数字电芯片上。所以与现有的数字芯片生态一样，只是在底层计算端换成了光芯片。

作为光电混合的设计的芯片，可能有人会担心在工艺上难以大规模量产。实际上，沈亦晨表示，硅光芯片采用的是CMOS工艺，这一点能解决90%最核心的问题。由于基本采用硅基的CMOS工艺，在电学、热学，包括仿真上都有相当成熟的软件可以直接使用。

而封装层面，PACE上采用了芯片堆叠，也就是类似于HBM的2.5D、3D封装方案。目前唯一不同的是，封装方案上需要增加一个接口，将光源导入光芯片中。

光芯片商业化还有多远？

在谈到这项技术的商业前景时，沈亦晨博士向记者强调，光计算并不是只有光芯片，在可预见的未来里，都将会是和电子芯片深度结合的光电混合计算。光芯片相比于电芯片，它更多是承接主要任务的处理器，主要承接的是线性计算和数据网络这两个部分。但由电芯片发出指令的一个好处是它和目前现有的市场环境、软件环境都是兼容的。

另外要注意的是，目前曦智的光电混合芯片，还不能用于消费者熟知的领域，比如PC、手机、编解码芯片等，同时这也不是曦智科技考虑的范畴。而曦智科技在应用场景的选择上，会先切入大数据，包括云计算、智能驾驶、金融上的量化交易、生物药物研发等场景。

沈亦晨表示，作为一项颠覆性的技术，本身一定需要经历漫长的商业化过程。他透露，在第一阶段也就是2022年开始的一到三年内，对于算力、延时等痛点特别强的应用场景开始落地，包括金融、大模型云服务、非AI的方向的优化、高性能运算等。

而第二个阶段会随着产品落地，在不同应用场景体现光计算优势后，将会投入更大规模团队做人工智能训练的市场。

第三阶段曦智将会延伸到GPU，包括车载芯片等市场。

“这些都是我们觉得对于算力需求非常大的，但是需要一个更成熟的硬件、软件体系和进一步切入的市场。”因此沈亦晨认为，技术商业化会是一个相当漫长的过程，需要不断地去改变、尝试不同应用场景和行业。

打开APP阅读更多精彩内容