存储技术
智能化DRAM为代表的技术方向将成为改变存储器市场格局的重要手段。
为了解决从客户端系统到高性能服务器的广泛应用所面临的性能和功耗挑战,JEDEC固态技术协会于2020年7月正式发布了下一代主流内存标准DDR5 SDRAM的最终规范(JESD79-5),为全球计算机内存技术拉开了新时代的序幕。
JEDEC将DDR5描述为一种“具备革命意义”的存储器架构,认为它的出现标志整个产业即将向DDR5服务器双列直插式存储器模块(DIMM)过渡。
DDR5的速度比已经超级快的DDR4还要快。与DDR4内存的3.2Gbps最高传输速率相比,全新DDR5内存则高达8.4Gbps。此外,DDR5也改善了DIMM的工作电压,将供电电压从DDR4的1.2V降至1.1V,从而进一步提升了内存的能效。两者之间的性能、容量和功耗等指标的具体比较见表1。
表1:DDR5与DDR4 DIMMs比较
DRAM芯片密度方面,DDR4在单裸片封装(SDP)模式下仅支持最高16Gb的DRAM容量,而DDR5内存标准将这一数字提高到了64Gb。这意味着,DDR5 DIMM在SDP模式下的最高容量可达256GB,是DDR4 64Gb最大容量的4倍。同时,DDR5 还支持片上错误更正码、错误透明模式、封装后修复和读写CRC校验等功能,并支持最高40个单元的堆叠,从而可使其有效内存容量达到2TB。
在设计上,DDR5内存保持与DDR4相同的288个引脚数,不过定义不同,无法兼容DDR4插槽。DDR5 DIMM采用了彼此独立的40位宽双通道设计(32个数据位,8个错误更正码字节),每个通道的突发长度从8字节(BL8)翻倍到16字节(BL16)。所以尽管数据位仍然是64位,但并发能力的提高使得内存存取效率得到了提升,而且两个通道共享寄存时钟驱动器,每侧可提供四个输出时钟,能够优化信号完整性。
此外,DDR5还带来了一种名为“同一区块刷新”(SAME-BANK Refresh)的新特性。这一命令允许对每一组区块中的单独区块进行刷新,而让其他区块保持打开状态,以继续正常操作。测试资料显示,单列DDR5模块与DDR4双列模块以3200MT/s的速度进行比较时,前者性能可以提升1.28倍,在4800MT/s的入门级数据速率下,DDR5性能提升了高达1.87倍。
市场调研机构Omdia分析指出,对DDR5的市场需求从2020年就开始逐步显现,到2022年,DDR5预计将占据整个DRAM市场的10%,2024年则将进一步扩大至43%; Yole Group则预测称,DDR5的广泛采用应该会从2022年的服务器市场开始,2023年,手机、笔记本电脑和PC等主流市场也将开始广泛采用DDR5,出货量明显将会超过DDR4,届时两种技术间将完成快速过渡。
与DDR2、3和4的升级演进重点主要集中在如何降低功耗上,移动和终端应用在于其主要推动力不同,DDR5的主要推动因素是因为随着CPU核心数量和运算性能的持续增加,内存带宽和容量也必须成比例地扩展。
例如,2000~2019年,内存带宽从约1GB/s迅速提升至200GB/s,但与此同时,一个系统中处理器核心数量也从早期的单核心、双核心,增加到如今的60个以上。在这样一个超多核心处理器的系统中,分摊到每个核心上的可用带宽严重不足。
推动DDR5前进的其他因素,还包括:处理器和内存希望拥有相同的内存读取细微性(64字节快取内存行); 相同或更好的可靠性、可用性和可服务性功能,例如必须支持单错误校正和双错误检测(single error correction/double error detection); 保持在冷却功率范围内(~15W/DIMM),并控制好启动和内存训练的时间,以免影响预期启动时间。
数据中心、PC与平板电脑和边缘计算,被视作DDR5最有希望广泛普及的三大领域。优先级方面,业界普遍认为DDR5将紧随DDR4的步伐,率先导入数据中心而不是PC领域,以应对运算密集型的工作负载。考虑到PC消费者对整机价格敏感度极高,且DDR5初期推出的价格与DDR4相比存在较高溢价,所以普及速度会相对较慢。
从目前的实际情况来看,DDR4仍然保持着强劲的态势,DDR5还处于早期的量产爬坡阶段,预计到2023年底DDR5的出货量才会超过DDR4。在PC市场,英特尔(Intel) Alder Lake处理器已经搭配了DDR5内存,AMD也宣布会在今年支持DDR5; 在服务器市场,第一个DDR5服务器已经出样,预计会在接下来的3~6个月内实现早期量产。这样看来,先前盛传的“2022年将能够真正全面进入DDR5时代”的说法看来有些过于激进——毕竟2022年底已近,而支持DDR5的处理器平台仍比较有限。
DRAM市场的几大参与者包括了三星(Samsung)、美光(Micron)、SK海力士(SK Hynix)、南亚科技(Nanya)、力积电(PSMC)等,图1展示了该领域主要市场参与者的技术演进方向。简单而言,三星、美光与SK海力士针对DDR4、DDR5和LPDDR5应用,已经以15nm和14nm等级的单元设计规则发布了D1z和D1α节点的产品; 三星是最早在DRAM上采用极紫外光(EUV)微影技术的供应商,将其应用于D1x DDR4 DRAM模组和D1z LPDDR5规模量产。
图1:主流供应商的DRAM制程节点演进
(来源:TechInsights)
HBM3
随着人工智能(AI)和机器学习(ML)领域需求的快速发展,内存产品设计的复杂性正在快速上升,并对带宽提出了更高的要求,高带宽记忆体(HBM)成为绕过DRAM传统I/O增强模式演进的另一个优秀方案。
从最开始数据传输速率约为1Gbps左右的HBM1,到2016年推出的最高数据传输速率为2Gbps的HBM2,再到2018年推出的最高数据传输速率3.6Gbps的HBM2E。
而在三星发布的最新蓝图中,其HBM3技术已于今年开始量产,接口传输速率可达6.4Gbps,相比上一代提升1.8倍,从而实现单芯片接口带宽819GB/s,如果使用6层堆叠可以实现4.8TB/s的总带宽。到2024年,预计将实现接口速度高达7.2Gbps的HBM3P,这一代数据传输率进一步提升10%,从而将堆叠的总带宽提升到5TB/s以上。
除了AI/ML训练市场之外,HBM3还可用于5G、高效能运算及其他与数据中心相关的应用场景、绘图应用和网络应用。其发展很大程度上是由不断上升的带宽需求驱动,而对带宽的需求几乎没有上限。换句话说,目前来看HBM的发展可能不会遇到障碍。但相较于GDDR DRAM动辄16/18Gbps的速率,HBM3的速率仍然存在差距,而限制HBM发展的原因则主要来自两方面:一是中间层,二是成本。
先进的2.5D/3D制造是造成成本偏高的原因。众所周知,HBM技术与其他技术最大的不同,就是采用了3D堆叠技术。HBM2E、DDR、GDDR,HBM3架构的基本单元同样是基于DRAM,但不同于其他产品将DDR进行平铺的做法,HBM选择了3D堆叠,其直接结果就是接口变得更宽。比如DDR的接口位宽只有64位,而HBM透过DRAM堆叠的方式可以将位宽提升到1024位,这就是HBM与其他竞争技术相比最大的差异。但这对成本比较敏感的客户或应用来说,使用HBM的门槛就被大幅提升了。
系统级创新将成为更大内存系统的关键
为了解决存储容量的需求,除了芯片级解决方案之外,系统级解决方案也是重要方向之一,使用CXL技术做内存扩展就极具代表性。以数据中心为例,图2从左至右为依次展示了数据中心正在及将要经历的三次重要转型。
图2:数据中心架构不断演进
首先,大约在2021年底,服务器内存将会开始向DDR5转型。与前代产品DDR4相比,DDR5整体架构较为一致,但在容量、能效等方面实现了大幅提升,具备现代化数据中心所必需的特性。
其次,预计到2022年,数据中心将会通过串行链路实现内存子系统的扩展,也就是CXL。利用CXL,就可以在传统插拔式内存条的基础之上,为服务器及数据中心增加全新的内存扩展方式。比传统插拔内存条的方式,CXL可以进一步提高现有数据中心内存的容量和带宽,也被称作“容量与带宽的双扩展”。
最后,数据中心分解化。CXL的使用将让业界更多关注资源池化和资源本身的功能效应,更高效率地分配资源。透过分解化的全新数据中心架构,运算、内存、存储等资源将进一步池化,从而能够依照工作负载的具体需求,将资源定向分配。使用完成之后,这些资源又将回归到统一的资源池中,等待后续的工作负载进行重新分配。
资源池化可以将资源的利用率大幅度提高,这会为超大规模运算,特别是云服务带来巨大的优势,帮助大幅度降低总体拥有成本(TCO)。因此,2019年3月,英特尔宣布联合微软(Microsoft)、阿里巴巴、思科(Cisco)、戴尔(Dell) EMC、Facebook、Google、惠普企业(HPE)和华为等公司,共同推出了一个全新的互连标准,取名为Compute Express Link (CXL),应用目标锁定互联网数据中心、通讯基础设施、 云端运算与云端服务等领域。
如前所述,作为一种开放的行业标准,CXL可在数据中心内的专用运算、内存、I/O和存储元素之间提供高带宽、低延迟的连接,以允许为给定的工作负载提供每个元素的最佳组合。
存储器更加智能化
在传统运算设备广泛采用的冯·诺纽曼架构(Von Neumann architecture)中,运算和存储功能不但是分离的,而且更侧重于运算。资料在处理器和存储器之间不停的来回传输,消耗了约80%的时间和功耗,也就是熟知的“存储墙”和“功耗墙”问题。
学术界为此想出了很多方法试图改变这种状况,如通过对DRAM的逻辑层和存储层进行堆叠,实现近内存运算(Near Memory Compute),或者是最好能够将存储和运算有机地结合(内存颗粒本身的算法嵌入),直接利用存储单元进行运算,最大程度消除数据移转所带来的功耗。
在这一背景下,更聚焦存储的新型“内存内运算”(In-memory Computing)架构诞生。从目前趋势来看,真正对“内存内运算”架构起决定性推动作用的,将是AI/物联网(IoT)相关应用的加速实践。
美光针对存储器与运算架构的发展,曾提出过三个阶段的看法:第一个阶段是让内存非常靠近逻辑运算,用大量的高带宽数据总线把内存和运算处理器更紧密连结; 第二个阶段是在内存中进行运算处理。这个概念始于1994年,尽管实现量产在技术上存在不小的难度,软件和逻辑也是分开的两部分,但消除传输、延迟等问题,并且大幅提升效能; 第三个阶段则是神经形态(neuromorphic)运算,使用内存架构本身做运算。
以三星为例,其当前主要的内存内运算技术称为HBM-PIM,原理是在HBM内存中直接整合运算单元; 另一种技术方案是在DRAM旁边直接整合加速器逻辑,以降低存去内存的开销,这样的技术三星称为AXDIMM (accelerator DIMM),预计2024~2025年完成开发。
总体而言,无论基于哪种存储技术,在面对内存内运算时,其实都存在一定的挑战。但随着ML等应用对于内存存取提出进一步需求,以智能化DRAM为代表的技术方向将成为改变存储器市场格局和竞争力的重要手段。
编辑:黄飞
全部0条评论
快来发表一下你的评论吧 !