电子说
乔治华盛顿大学的研究人员报告了一种构建光子张量核心的方法,该方法利用相变光子存储器来实现神经网络(NN)。他们的新颖架构已于上周在《 AIP应用物理评论》(AIP Applied Physics Review)上在线报道,与传统的GPU和其他张量核心设备相比,有望实现性能提升和功耗优势。虽然已经探索了几种光子神经网络设计,但用于执行张量操作的光子张量核心尚未实现。
光子学[i]涵盖了广泛的光技术,涵盖了通过混合光电技术跨越光纤的各种技术。例如,光学互连技术是提高内存到处理器乃至处理器到处理器带宽的重要研究领域。高带宽和低功耗是光子学的吸引力。
在他们的 论文中, 用于机器学习的光子张量核心,Mario Miscuglio和Volker Sorger认为,在异构计算时代,基于光子的专用处理器具有增强电子系统的巨大潜力,并且可能在网络边缘设备以及其他设备中表现出色5G通信。例如,用于推理的预训练光子张量核心神经网络将消耗很少的功率。
Miscuglio告诉 HPCwire:“除了可以直接在光域中工作而增加的速度和带宽之外,还可以利用光纤中传输的信号的固有光学特性,使用光子架构的优势是执行推理的功耗更低这对于智能光学低功耗传感器很有用。”
广义上讲,神经网络大量使用矩阵向量乘法。毫不奇怪,在这种计算方式下,最新的GPU和TPU比CPU更好。研究人员在论文中很好地总结了挑战:
“对于提供高计算灵活性的通用处理器,这些矩阵运算是串行(即一次一次)进行的,同时需要连续访问高速缓存,因此产生了所谓的”冯·诺依曼瓶颈”。已经设计出了用于神经网络的专用架构,例如图形处理单元(GPU)和张量处理单元(TPU),以减少冯·诺依曼瓶颈的影响,从而实现尖端的机器学习模型。这些架构的范例是提供域特定性,例如对卷积进行优化或与CPU不同的是执行并行运算的矩阵向量乘法(MVM),从而并行部署 脉动算法。
“ GPU具有针对矩阵数学运算而优化的数千个处理核心,可提供数十至数百个TFLOPS(层级浮点运算)的性能,这使GPU成为基于深度NN的AI和ML应用程序的显而易见的计算平台。GPU和TPU相对于CPU尤其有利,但是当用于对大型二维数据集(例如图像)实施深度NN执行推理时,它们非常耗电,并且需要更长的计算时间(》几十毫秒)。此外,用于不太复杂的推理任务的较小矩阵乘法[例如,美国国家标准与技术研究院数据库(MNIST)的手写数字的分类]仍然受到不可忽略的延迟的挑战,
他们提出了一种在光子学中实现的张量核心单元,它依赖于光子复用(WDM,波分复用)信号,“经过滤波后,使用基于在 波导上构图的Ge 2 Sb 2 Se 5导线的工程化多态光子存储器进行加权后加权。通过使用钨电极引起的焦耳热的电热切换,通过有选择地改变导线的相(非晶/晶体)来对光子存储器进行重新编程。如果需要,可以并行(几微秒)实现光子存储器编程,或者,该光子张量核心可以作为具有预设置内核矩阵的无源系统来运行。”
Miscuglio说,相变存储技术是一项至关重要的进步,“我们大脑中的每个神经元同时存储和处理数据。同样,在我们的体系结构中,我们使用的存储单元可以通过电子方式写入,并且可以存储多位权重,并且可以通过简单地让光线与材料相互作用来光学读取。我们的光子存储器依赖宽带透明相变材料,与其他基于更成熟的GST(锗-锑-碲)的实现方式不同,其特点是在电信波长下的非晶态损耗可忽略不计。”
“这很重要,因为它支持更深的架构,无需使用额外的激光源或放大器就可以解决更复杂的任务。我们还提出了一种多状态光子存储器(4位)架构,该架构可以使用电热加热器轻松擦除并写在芯片上。与依赖于片上或片外的繁琐的光学写入/擦除的其他实现方式不同,所有存储器均具有专用电路并可以并行写入。
Miscuglio说,该体系结构未映射特定的网络体系结构,而是神经网络的更通用的加速器。利用其模块化架构,可以“直接将光子TPU用于一系列操作,包括但不限于矩阵矩阵乘法,例如矢量矩阵乘法,卷积。这些代数运算是许多复杂的科学和社会问题的关键运算。”
“我们认为,从长期来看,数据中心将从这种架构中受益匪浅,因为它们处理的许多信息已经在光域中。我们认为它不会取代超级计算机,但可用作预处理单元,可与超级计算机协同工作,处理靠近网络边缘的数据,从而对信号进行分类和关联,以寻找特定的数据或模式块,从而减少数据流量。”
在撰写本文时,他们已经测试了多态低损耗光子存储设备,“显示出的性能与仿真非常吻合”。Miscuglio说:“我们开发了执行4×4矩阵乘法的单光子核心架构,目前正在开发第一代光子张量核心。关于时间表,我们计划在六个月至一年内对单核进行实验演示,并在未来几年内对功能齐全的多核张量处理器进行演示。”
全部0条评论
快来发表一下你的评论吧 !