科学家成功研制首个存算一体通用模拟芯片

独爱72H 2019-09-02 1810

模拟技术

2414人已加入

描述

作为模拟人类大脑处理信息的计算技术，神经形态计算被认为是实现通用人工智能的重要方向之一。

它与传统的计算技术相比，最主要的一个区别在于其摆脱冯·诺依曼架构存算分离的枷锁，追求人脑神经元的高效整合形式，将数据存储和处理的功能集中在相同的计算单元上，从而可以能效更高、性能更好、速度更快地进行数据的处理，因此颇受人工智能领域的关注。其中，一种名为“忆阻器”的硬件元件是神经形态计算实现的关键。简单来说，忆阻器即同时兼备记忆和电阻的功能。

尤其是在人工智能算法的运行过程中，一旦将数据存入硬盘而不是系统内存中，计算速度就会成百倍地降低，电源消耗也会成百倍地增长。即使所有数据都能够存储在内存中，现有的中央处理芯片也需要从内存中读取数据，但是数据在内存和中央处理器之间的来回存取过程，会消耗大量的时间和电力能源。

针对这一问题，诸多的芯片公司、初创公司和科学家们投入了大量的时间和资金，来研究如何将计算机中的运算从中央处理器转入内存中进行，这种方法也被称为存算一体化。这一方式不仅可以提升计算速度，也可以减少计算功耗。

存算一体架构对于需要处理大量数据的应用场景如 AI 非常有吸引力，理想的存算一体架构能把整个 AI 模型存在芯片上并直接在存储单元上运行。这样可以彻底舍弃外置存储单元如 DRAM，以极大地提高芯片的功耗比和处理量。现有和正在研发的解决方案大概有以下几种：

1. 使用现有的存储技术比如 SRAM，这种方案比较成熟，被很多初创公司和科研机构所采用。但是，由于 SRAM 密度和功耗的限制，它只能用在很小的“玩具模型（toy model）”上。大的模型还需要将参数储存在外置的 DRAM 上，整个系统的功耗比会因此迅速下降。

2. 新型的非易失性存储器（non-volatile memory， NVM）比如 RRAM、STT-MRAM，这个方向同样有很多公司感兴趣。这类嵌入式 NVM 有希望实现整个模型的片上存储，但其局限是，模型的运算还需要通过中央处理器 CPU，并不能彻底解决数据传输比如总线的堵塞问题。

3. 真正意义上的存算一体结构会尽量避免使用 CPU，而通过嵌入的 NVM 直接做运算。其中的困难在于，怎么解决使用存储单元做运算带来的模拟信号的误差问题，以及怎么实现足够精度和高效的模拟/数字信号转换。

在人工智能和深度学习算法中，核心运算主要是大量的向量-矩阵乘法（Vector-Matrix Multiplication, VMM）。由于基于忆阻器阵列的芯片使用了模拟电路而非数字电路，使得其对于 VMM 的计算是非常高效的，并且已经在多项研究中显示出在人工智能计算领域中的潜力。

而在通用性的验证上，团队使用忆阻器阵列芯片，实现了三种人工智能的算法。首先是称为“感知器”（perceptron）的著名机器学习算法，该算法也是最为常见的用来进行信息分类的机器学习算法之一。团队用这款芯片成功地实现了单层感知器的运算，并将其用来识别希腊字母的有噪图片。

这款芯片实现的另一种更复杂的算法是“稀疏编码”（sparse coding）算法。这种算法通过比较神经元来优化神经网络，剔除无效的神经元，找出最优的神经元连接方式，进而针对目标找出最优的神经网络，可以用来有效地进行特征提取、数据压缩以及数据分类等工作。

最后，这款芯片实现的是双层神经网络的无监督学习算法，用来识别和判断乳房肿瘤图像。神经网络中的第一层使用主成分分析方法，来自主识别图像中的特征，第二层使用感知器来进一步判断图像中的肿瘤是否是恶性的。这种算法在这款芯片上运行的准确率可以高达 94.6%，这一结果已经非常接近在传统芯片上运行得到的 96.8% 的准确率。这一细微差距，主要是忆阻器元件在分类边界上的电荷不确定性造成的。

当然，这款忆阻器芯片仍有很大的优化和提升空间。IEEE Spectrum 称，他们在芯片中使用了 40 年前的 180 纳米的晶体管，而如果使用 2008 年 40 纳米的晶体管技术，就可以将功耗继续降低至 42 毫瓦，并可将计算效率提高至每秒每瓦特 1.37 万亿次运算。相较而言，英伟达的最新人工智能芯片使用的是更为先进的 2014 年的晶体管制造工艺。

打开APP阅读更多精彩内容