电子说
依据von Neumann架构,计算机中记忆体和控制单元是分离的,这也是目前计算机及相关的半导体零件制造的指导方针。但是在目前海量资料的处理与储存上,这样的架构对资料的“读取—处理—储存”循环在资料传送速度、功耗上形成重大挑战。特别是记忆体本身因写入速度、保留时间等的特性差异,从cache、DRAM、NAND等形成复杂层层相转的记忆体体制(memory hierarchy),让资料的处理循环变得更长、更耗能。
当网路的频宽变大、人工智能(AI)应用对于大数据处理的需求日益提高,上述的问题益发严重。这个问题的解决有多个面向,也分短、中、长期的战术与战略。
短的来说,新兴记忆体在整合记忆体体制已初露曙光,基本上是朝向统一记忆体(united memories)的方向走,但都还有些距离。PCM容量密度现在比较大,速度虽然比NAND快很多,但还是不如DRAM,记忆体体制问题还残留,功耗也还是问题。RRAM的容量密度还没提上来,短期内只可能从NOR的替代切入。MRAM的速度较快,赶上DRAM了,但速度仍不足以直接与CPU匹配,容量密度与NAND相去更远,这两个问题分别要靠SOT MRAM与3D MRAM来解决。
中期的方案是CPU与记忆体单晶堆叠(monolithic stacking)的异质整合(heterogeneous integration),这方案将二者以芯片制造、异质封装的方法同时提升资料传递速度、减少功耗。在二者的异质整合中,谁取得整合主导权就取得技术和商业的发言权,这也难怪现在晶圆代工厂和记忆体厂都开始建立自有封装能力,整合封装部分入自己的加值链。
长远的对策是个颠覆von Neumann架构的做法——记忆体本身就可以做运算,记忆体和控制单元合为一体。如此一来,资料自然不必在记忆体与处理器间反覆搬运、递送,能耗自然低,速度也快。
记忆体运算(in-memory computing)要能完全实现有2个先决条件。一是速度要快,要接近目前逻辑闸的速度。二是记忆体单元要多,目前功能复杂的元件闸数极多。传统记忆体在这两者间往往难以兼顾,是以目前记忆体运算开始以新兴记忆体为实施主体。
新兴记忆体都是以电阻大小做为0与1态的分别。但是对于有些新兴记忆体,位元之间的电导(电阻的倒数)变异很大,如果用新兴记忆体,如PCM,做为逻辑闸会因电导变异而在感应(sensing)逻辑闸运算结果的时候产生误差,目前的努力方向之一就是在克服由电导变异产生运算误差的问题。
MRAM的电导变异不大,目前的努力方向之一在于如何利用既存记忆体线路结构形成逻辑闸。方案之一很简单,利用记忆体的周边线路行解码器(column decoder)的感测器组合,便可选取一个单元当记忆体,或者选取2个单元、配合感测器电压的设定形成各式的逻辑闸。这样设计的MRAM对于整体线路的面积负荷增加并不大,不至于恶化目前MRAM容量密度不高的事实。至于速度不够快的问题,脑筋已动到SOT MRAM头上,运算速度的确可以再提升。
短期间内大概无法将完整的复杂逻辑线路大幅搬移到记忆体中,现在新兴记忆体的容量密度不足,也不够快。但是可以想到的是将一些特殊应用、反覆使用的简单运算先搬到记忆体中,比如AI芯片中常用的运算像纯量内积(scalar product)、矩阵,向量相乘(matrix-vector multiplication)等运算先在记忆体中处理,后续的运算再传递至主处理器进行,这样就可以大幅减少巨量资讯的搬动。
一个重要的题外话,如果记忆体运算真的是半导体的远程未来,那么是以逻辑为主的公司、还是记忆体为主的公司会在未来的竞争中胜出?这个问题值得想一想!
来源:Digitimes
全部0条评论
快来发表一下你的评论吧 !