存储器阵列中改变模拟计算技术解读

电子设计 2021-04-09 3369

描述

在TinyML Summit上，早期的模拟AI加速器初创公司Areanna首次公开披露了其架构，并公开了其基于40 TOPS / W SRAM阵列的设计的某些功能。不寻常的设计在存储阵列内集成了模数和数模转换。由于ADC和DAC通常在内存中计算设计中占用绝大部分硅面积和功率预算，因此在存储器阵列中集成此功能可能会改变模拟计算技术。

Areanna由前泰克模拟设计工程师Behdad Youssefi以及另一个前Tek同事Patrick Satarzadeh领导。他们仍然是公司仅有的两名全职员工，以及两名兼职工程师和数名顾问。该公司根据其架构的建立和运行情况，获得了一个带有一个计算块的测试芯片。

数字信号

模拟计算的基本前提。DAC将输入数据转换为模拟电压。通过调节阵列中可变电阻器的电导乘以模拟输入电压，可以实现乘法。信号累积在垂直累积线上，然后由ADC转换回数字域。例如，可变电阻器阵列可以基于忆阻器或存储单元（来源：Areanna）

计算和量化
Areanna称其架构为内存中的计算和量化（CQIM）。该概念基于模拟内存计算技术，与其他几家AI芯片初创公司（Mythic，Gyrfalcon等）采用的基本概念相同。但是，Areanna使用SRAM阵列而不是非易失性存储器，并混合了大量的秘密调味料。

Behdad Youssefi（来源：Areanna）

Areanna的IP在其SRAM阵列的设计中，该阵列在阵列内部集成了ADC和DAC功能。其他内存计算设计在每行/每个输入上使用一个DAC，在每列/每个输出上使用一个ADC。这些ADC和DAC占据了芯片功耗预算和硅片面积的很大一部分（根据Areanna的数据，高达85％的功耗和98％的硅片面积）。在他的TinyML演示中，尤塞菲描述了模拟计算方法“用数据转换瓶颈代替了冯·诺依曼体系结构的内存瓶颈”。
在Areanna的CQIM架构中，AD和DA转换是通过与计算相同的电路结构执行的– Areanna称这些乘法位单元（MBC）。

虽然Areanna的前提是基于模拟计算，但电路几乎完全是数字化的，并且是用数字处理技术制造的。通过从SRAM位单元读取权重参数，然后将其乘以输入激活，然后通过单位电容器转换为电荷，并在垂直累积线上进行累加，即可进行计算。具有相同的MBC结构可进行AD和DA转换，从而节省了大量的硅面积，而缺少ADC采样电路可节省功耗。

Youssefi在接受EE Times采访时说：“有一个SRAM位单元，然后有一个乘法器，一些逻辑，逻辑块的输出是数字信号。” “ [金属]电容器将该信号转换为电荷，该电荷在垂直累积线上共享。为了执行这种所谓的模拟计算，几乎没有模拟电路。”

数字信号

Areanna的CQIM体系结构在每个乘法位单元（MBC）中都包含DAC和ADC功能（来源：Areanna）

该设计的一个重要特征是，每个点积计算仅需要一次量化（一次AD转换），而与计算的分辨率无关。

尤塞菲说：“我们生成和累积MAC结果并将其量化回数字的方式使我们只能进行一次量化。” “这是因为我们在量化之前在模拟域中进行缩放的方式。在其他内存中计算体系结构中，该缩放发生在数字域中，因此，当您完成AD转换后，就可以进行缩放。我们在模拟领域以高度的完整性来做到这一点。”

尤塞菲说，其他的内存中计算架构可能会在每条垂直累积线上解析每个计算的一到四位。典型的架构可能需要一个两位数字输入并产生一个四位数字输出（通常使用较低精度的DAC和ADC来节省芯片面积）。因此，将八位权重与输入激活相乘可能需要将计算分解为多个部分。Areanna的设计提供了完全可编程的分辨率，而不会影响硬件利用率。

他说：“我们不会通过从8位提高到4位再到1位来降低硬件利用率，无论分辨率如何，它仍然是100％的硬件利用率，”他说。“ [[对于其他内存计算方案]如果要提供可变分辨率，则必须大大降低硬件利用率。”

数据流优化
与非易失性存储器相比，使用SRAM的优势包括SRAM的低读写能量；这样就可以从片外引入重量，而不会产生高能耗。Youssefi解释说，SRAM的低写入能量还为数据流优化提供了灵活性。

当今行业中正在使用各种数据流优化方法-它们的区别在于哪些数据类型保持不变，哪些数据类型围绕芯片移动。例如，对于具有很多权重的大型神经网络层，保持权重固定可能是有效的。对于处理高分辨率图像的网络，输入激活数据是数据密集度最高的数据类型，因此使输入激活保持静止可能更有意义。Areanna的基于SRAM的架构允许双重静态数据流优化，也就是说，无需额外的硬件就可以使两种数据类型成为静态数据。

Youssefi说：“因为我们的计算是在模拟域中并行完成的，所以我们实际上并不需要移动数据。” “由于架构的原因，可以使权重或用户选择的任何内容固定，并且部分和[输出]始终固定。因此，这两种数据类型没有变化。”

用户可以选择使输入激活和部分和固定不变，或者使权重和部分和固定均固定，这取决于对应用程序（或神经网络中特定层）最有效的选择。

可伸缩性
据Youssefi称，当前许多内存计算架构的另一个问题是它们的可伸缩性受到限制。

Youssefi在他的TinyML演示中说：“针对功率性能进行了优化的逻辑技术被用于构建这些数据转换器。” “然后有一种存储技术，该技术针对密度进行了优化，并用于制造存储阵列。当您将这两种技术放在同一个芯片上时，您将面临两全其美的局面。”

由于Areanna的设计几乎完全建立在数字模块上，因此可以在标准CMOS工艺中进行制造，并可以根据摩尔定律跟踪到较小的工艺节点。也无需担心困扰其他内存计算设计的模拟非理想情况-Areanna使用的金属电容器具有非常高的精确度匹配精度，其他一切都是数字的。

Areanna的测试芯片（来源：Areanna）

测试芯片
Areanna成立于2019年，以小企业创新研究（SBIR）赠款的形式获得了美国国家科学基金会的种子资金，总计225,000美元。该公司在其架构上拥有两项专利。2020年，这家初创公司发布了磁带，并制造出了能够部分矩阵乘法的工作测试芯片，从而证明了该架构的功能。该芯片的基准功率效率为40 TOPS / W，计算密度为2 TOPS / mm 2硅面积（两个数字均为8位计算）。每个内核的内存带宽为2 TB / s。

尤塞菲说，下一步是阿雷安娜（Areanna）使用多个计算块构建更大的测试芯片。第二个更高级的测试芯片将在2022年问世。

编辑：hfy

打开APP阅读更多精彩内容