模拟技术
作为模拟人类大脑处理信息的计算技术,神经形态计算被认为是实现通用人工智能的重要方向之一。
它与传统的计算技术相比,最主要的一个区别在于其摆脱冯·诺依曼架构存算分离的枷锁,追求人脑神经元的高效整合形式,将数据存储和处理的功能集中在相同的计算单元上,从而可以能效更高、性能更好、速度更快地进行数据的处理,因此颇受人工智能领域的关注。其中,一种名为“忆阻器”的硬件元件是神经形态计算实现的关键。简单来说,忆阻器即同时兼备记忆和电阻的功能。
尤其是在人工智能算法的运行过程中,一旦将数据存入硬盘而不是系统内存中,计算速度就会成百倍地降低,电源消耗也会成百倍地增长。即使所有数据都能够存储在内存中,现有的中央处理芯片也需要从内存中读取数据,但是数据在内存和中央处理器之间的来回存取过程,会消耗大量的时间和电力能源。
针对这一问题,诸多的芯片公司、初创公司和科学家们投入了大量的时间和资金,来研究如何将计算机中的运算从中央处理器转入内存中进行,这种方法也被称为存算一体化。这一方式不仅可以提升计算速度,也可以减少计算功耗。
存算一体架构对于需要处理大量数据的应用场景如 AI 非常有吸引力,理想的存算一体架构能把整个 AI 模型存在芯片上并直接在存储单元上运行。这样可以彻底舍弃外置存储单元如 DRAM,以极大地提高芯片的功耗比和处理量。现有和正在研发的解决方案大概有以下几种:
1. 使用现有的存储技术比如 SRAM,这种方案比较成熟,被很多初创公司和科研机构所采用。但是,由于 SRAM 密度和功耗的限制,它只能用在很小的“玩具模型(toy model)”上。大的模型还需要将参数储存在外置的 DRAM 上,整个系统的功耗比会因此迅速下降。
2. 新型的非易失性存储器(non-volatile memory, NVM)比如 RRAM、STT-MRAM,这个方向同样有很多公司感兴趣。这类嵌入式 NVM 有希望实现整个模型的片上存储,但其局限是,模型的运算还需要通过中央处理器 CPU,并不能彻底解决数据传输比如总线的堵塞问题。
3. 真正意义上的存算一体结构会尽量避免使用 CPU,而通过嵌入的 NVM 直接做运算。其中的困难在于,怎么解决使用存储单元做运算带来的模拟信号的误差问题,以及怎么实现足够精度和高效的模拟/数字信号转换。
在人工智能和深度学习算法中, 核心运算主要是大量的向量-矩阵乘法(Vector-Matrix Multiplication, VMM)。由于基于忆阻器阵列的芯片使用了模拟电路而非数字电路,使得其对于 VMM 的计算是非常高效的,并且已经在多项研究中显示出在人工智能计算领域中的潜力。
而在通用性的验证上,团队使用忆阻器阵列芯片,实现了三种人工智能的算法。首先是称为“感知器”(perceptron)的著名机器学习算法,该算法也是最为常见的用来进行信息分类的机器学习算法之一。团队用这款芯片成功地实现了单层感知器的运算,并将其用来识别希腊字母的有噪图片。
这款芯片实现的另一种更复杂的算法是“稀疏编码”(sparse coding)算法。这种算法通过比较神经元来优化神经网络,剔除无效的神经元,找出最优的神经元连接方式,进而针对目标找出最优的神经网络,可以用来有效地进行特征提取、数据压缩以及数据分类等工作。
最后,这款芯片实现的是双层神经网络的无监督学习算法,用来识别和判断乳房肿瘤图像。神经网络中的第一层使用主成分分析方法,来自主识别图像中的特征,第二层使用感知器来进一步判断图像中的肿瘤是否是恶性的。这种算法在这款芯片上运行的准确率可以高达 94.6%,这一结果已经非常接近在传统芯片上运行得到的 96.8% 的准确率。这一细微差距,主要是忆阻器元件在分类边界上的电荷不确定性造成的。
当然,这款忆阻器芯片仍有很大的优化和提升空间。IEEE Spectrum 称,他们在芯片中使用了 40 年前的 180 纳米的晶体管,而如果使用 2008 年 40 纳米的晶体管技术, 就可以将功耗继续降低至 42 毫瓦,并可将计算效率提高至每秒每瓦特 1.37 万亿次运算。相较而言,英伟达的最新人工智能芯片使用的是更为先进的 2014 年的晶体管制造工艺。
全部0条评论
快来发表一下你的评论吧 !