IBM公司最新推出一款名为“NorthPole”的类脑芯片

IEEE电气电子工程师 2023-10-27 1089

描述

据悉，IBM公司最新推出了一款名为“NorthPole（https://research.ibm.com/blog/northpole-ibm-ai-chip）”的类脑芯片，其运行由人工智能驱动的图像识别算法的速度是同类商业芯片的22倍，能效是同类芯片的25倍。根据IBM的一项研究显示，新型硅芯片的应用可能包括自动驾驶汽车和机器人。

以大脑为灵感的计算机硬件旨在模仿人脑以异常节能的方式快速执行计算的非凡能力。这些机器通常用于实现神经网络，类似地模仿大脑的学习和操作方式。

“NorthPole merges the boundaries between brain-inspired computing and silicon-optimized computing, between compute and memory, between hardware and software.”

—DHARMENDRA MODHA, IBM

受大脑启发的电子学经常采用的一种策略是复制生物神经元计算和存储数据的方式。将处理器和内存结合起来，可以大大减少计算机在这些组件之间穿梭数据所损失的能量和时间。

该研究的主要作者、IBM大脑启发计算的首席科学家Dharmendra Modha说：“大脑比现代计算机节能得多，部分原因是它在每个神经元中都存储了带有计算功能的内存。”

Modha说：“NorthPole融合了大脑启发计算和硅优化计算、计算和内存、硬件和软件之间的界限。”

新芯片针对2位、4位和8位低精度操作进行了优化。研究人员表示，这足以在许多神经网络上实现最先进的精度，同时省去训练所需的数值。该研究原型在25至425兆赫的频率范围内工作，每个核心每个周期可以以8位精度执行2048次操作，以2位精度执行8192次操作。

NorthPole是在过去八年中开发的，它建立在IBM最后一款类脑芯片TrueNorth的基础上。TrueNorth于2014年首次亮相，其功率效率比当时的传统微处理器低四个数量级。

Modha说：“NorthPole的主要目标是大幅降低TrueNorth的潜在资本成本。”

科学家们用两个人工智能系统测试了NorthPole —— ResNet 50图像分类网络和Yolo-v4物体检测网络。与使用类似12纳米节点制造的英伟达V100 GPU相比，NorthPole每瓦的能效是后者的25倍，速度是后者的22倍，同时面积只占五分之一。

“Given that analog systems are yet to reach technological maturity, this work presents a near-term option for AI to be deployed close to where it is needed.”

—VWANI ROYCHOWDHURY, UCLA

NorthPole的表现也优于市场上所有其他芯片，即使是使用更先进节点制造的芯片。例如，与使用4nm节点实现的英伟达H100 GPU相比，NorthPole的能效高出五倍。事实证明，NorthPole的速度大约是TrueNorth的4000倍。

加州大学洛杉矶分校的计算和人工智能科学家Vwani Roychowdhury没有参与这项研究，他说：“这篇论文代表了一场工程之旅。”

新芯片的速度和效率来自于它所有的内存都在芯片上。这意味着每个核心都可以同样轻松地访问芯片上的存储器。

此外，Modha说，从设备外部看，NorthPole是一个有源存储芯片。这有助于将NorthPole集成到系统中。

Modha说，NorthPole的潜在应用可能包括图像和视频分析、语音识别，以及被称为变压器的神经网络，这些网络是为聊天机器人（如ChatGPT）提供动力的大型语言模型（LLM）的基础。IBM表示，这些人工智能任务可能会用于自动驾驶汽车、机器人、数字助理和卫星观测等领域。

一些应用程序要求神经网络太大，无法安装在单个NorthPole芯片上。Modha说，在这种情况下，这些网络可以分解成更小的部分，可以分布在多个NorthPole芯片上。

IBM指出，NorthPole的效率显示出它不需要庞大的液体冷却系统来运行——风扇和散热器就足够了。这意味着它可以部署在更小的空间。

科学家们注意到，IBM用12纳米的节点工艺制造了NorthPole。目前CPU的技术水平是3纳米，IBM已经花了数年时间研究2纳米节点。该公司表示，这表明，这种类脑策略可能很容易取得进一步的成果。

NorthPole的架构类型通常被称为内存计算，可以是数字的，也可以是模拟的。在诸如NorthPole之类的数字内存计算系统中，需要许多电路来运行乘法-累加（MAC）运算，这是神经网络中最基本的计算。相比之下，内存中的模拟计算系统拥有更适合执行这些操作的组件。

内存中的模拟计算比数字计算需要更少的功率和空间。然而，这些模拟系统通常需要新的材料和制造技术，而NorthPole是使用传统的半导体制造技术制造的。

Roychowdhury表示：“鉴于模拟系统尚未达到技术成熟度，这项工作为人工智能在需要的地方部署提供了一个近期选择。”

审核编辑：彭菁

打开APP阅读更多精彩内容