存储技术
之前的计算时代(大型机/小型机、PC/服务器和智能手机/平板电脑)都受益于摩尔定律的进步,即2D缩放同时伴随着性能、功耗和面积/成本的提高(也被称为“PPAC”)。
当人工智能应用蓬勃发展时,摩尔定律正在放缓;因此,该行业需要突破2D缩放,以新的方式驱动PPAC。具体来说,我们需要新的计算架构、新的材料、新的结构(尤其是节省面积的3D结构)以及先进的芯片堆叠和异构设计的封装。
AI时代结构设计的变化影响了逻辑和存储。机器学习算法大量使用了矩阵乘法运算,而这些运算在通用逻辑中十分繁琐,这推动了加速器及存储器的发展。AI计算包括两个不同的内存任务:首先,存储计算的中间结果;其次,存储与训练模型相关的权重。
性能和功耗在云计算和边缘计算中都很重要,而存储方面的创新可能会有所帮助。使用现有内存技术的一种方法是“近内存”,即大量的工作内存被压缩后放置在接近逻辑的物理位置,并通过高速接口连接。在这些应用场景中,SRAM和DRAM作为“工作内存”的一个主要缺点是,它们是易失的,需要持续供电来保存数据(比如权重)。
为了降低云计算和边缘计算的功耗,设计人员正在评估将高性能和非易失性结合在一起的新型存储,以便只在读写操作期间需要耗电。三种主要的新存储器候选是磁性随机存取存储器(MRAM)、相变存储器(PCRAM)和电阻存储器(ReRAM)。
这三种存储器都采用了新的材料,可以被设计成高电阻率和低电阻率,而高电阻率和低电阻率又分别代表0和1。MRAM通过改变磁性方向来控制电阻率;PCRAM利用材料从无定形到结晶的排列变化;ReRAM在材料中创建了一个纤维。PCRAM和ReRAM都提供了电阻率中间阶段的可能性,允许在每个单元中存储多个比特。
让我们来研究一下AI时代的计算应用场景,以及它们是如何推动路线图中的创新的。
物联网的边缘计算应用可以分为低性能/低功耗应用和高性能/高功耗应用。
低性能/低功耗应用的例子是安全摄像头,它可以在用户端应用AI算法实现面部和语音识别。设计目标是在边缘处理尽可能多的数据,只向云端传输重要的信息。性能要求低是因为采样率低,包括备用电源在内的电力消耗是至关重要的,特别是在电池供电的设备中。
业界目前在边缘计算设备中使用SRAM内存。SRAM并不理想,因为它每个存储单元需要多达6个晶体管,而且工作室漏电可能很高。SRAM在存储权重时并不节能,在低频设计中尤其如此。作为一种替代方案,MRAM承诺将使晶体管密度提高数倍,从而实现更高的存储密度或更小的芯片尺寸。MRAM的另一个关键特性是它可以被设计成嵌入式系统芯片产品的后端互连层。MRAM可用于存储SOC的操作系统和应用程序,从而消除了为此目的而使用嵌入式闪存芯片的需要,从而降低了系统芯片总数和成本。
高性能的“近边缘”应用场景,如缺陷检测和医学筛选,需要更高的性能。一种被称为自旋轨道转矩MRAM (SOT-MRAM)的MRAM变体可能被证明比自旋转矩转移MRAM (STT-MRAM)更快、更低功耗。
云计算需要尽可能高的计算性能,而训练需要大量的数据来接近机器学习加速器,因此机器学习加速器有大量的片内SRAM缓存,并辅之以大量的片外DRAM阵列,这些DRAM阵列需要恒定的功耗。用电量对云服务提供商很重要,因为在人工智能时代,数据呈指数级增长,而电网电力有限且昂贵。PCRAM是云计算架构的一个主要候选者,因为它比DRAM提供更低的功耗和成本,并且比固态硬盘和硬盘驱动器具有更高的性能。
除了这些“二进制”边缘、近边缘和云应用之外,还有对存储器内计算的研究。机器学习的频繁矩阵乘法运算可以在一个存储器阵列中执行,设计人员正在探索伪交叉点架构,其中的权重存储在每个内存节点上。PCRAM、ReRAM甚至是铁电场效应晶体管(FeFETs)都是很好的选择,因为它们都有实现每单元存储多bit的潜力。目前,ReRAM似乎是这个应用场景最可行的内存,矩阵乘法可以利用欧姆定律和基尔霍夫定律在阵列内完成,而不需要将权重移进移出芯片。多层单元结构保证了新的内存密度级别,允许设计和使用更大的模型。要实现这些新的模拟存储器,需要对新材料进行广泛的开发和工程设计,而应用材料公司正在积极开拓一些领先的候选领域。
虽然摩尔定律的指数增长速度已经放缓,但人工智能时代的数据仍将呈指数级增长。这种趋势已经推动了建筑、材料、3D结构和先进封装技术的创新——用于芯片堆叠和异构集成。存储越来越接近人工智能计算引擎,最终,存储可能成为人工智能计算的引擎。随着这些创新的展开,我们将看到性能、功耗和密度(面积/成本)方面的显著改善——新兴存储优化以满足边缘计算、近边缘和云计算的需求。实现硬件方面的复兴,才能充分挖掘人工智能时代的潜力。
责任编辑:ct
全部0条评论
快来发表一下你的评论吧 !