QLC固态硬盘将成企业新宠!和Solidigm高管探讨未来企业级存储发展趋势

电子说

1.3w人已加入

描述

随着5G、大数据、云计算、物联网乃至AI预训练大模型等技术的不断演进,数字化浪潮正在推动全人类社会朝向新的文明层次快速发展。数字化永远无法回避的一个话题就是数据存储。有意思的是,曾经不被看好的QLC产品,竟在云计算和数据中心市场,迸发出新的活力,有望逐步成为企业级存储主力之选……

圆周率计算迎来新的世界纪录

前不久,StorageReview团队在位于美国辛辛那提的实验室中使用第四代AMD EPYC CPU和Solidigm D5-P5316 QLC SSD,进行圆周率(π)小数点后100万亿位数的计算,最终的成绩成功打破世界纪录,其速度几乎达到此前的3倍(原纪录由Google于去年6月创造,共运行近158 天),总运行时间缩短至59天10小时46分49.55秒。其中,基于4bit单元QLC闪存的Solidigm D5-P5316可用容量为530.1TB,测试中使用峰值为514.5TB,总读取量为40.2 PB,写入35.4 PB,总计数据吞吐量高达75.6 PB。该团队负责人Beeler表示:“QLC非常适合这类工作负载。它支持突发写入和频繁写入,如果我们保持每天向每个驱动器发送接近30TB的数据写入的节奏,每年的数据写入将超过10PBW。事实证明,QLC SSD完全可以跟上计算速度,并在单个服务器中提供巨大的存储密度。此外,在近60天的测试中,我们发现SSD耐用性的消耗几乎可以忽略不计。”这次的测试几乎颠覆了绝大多数人对于QLC SSD的固有印象。

SSD

▲第四代QLC SSD在存储密度提升的同时,还带来了满足散热、边缘化、非结构化和云端化需求等多方面的优势和便利。

作为SSD的核心组件,NAND闪存经历了SLC、MLC、TLC、QLC四代演进,每单元存储数据从1bit发展到2bit、3bit、4bit。不过伴随着每单元存储位数增加,电压变化也逐级递增,而电压频繁切换会导致更多的错误和更长的擦除时间,表现出来就是写入速度更低、寿命更短、可靠性更差。尤其是在消费级市场,多数消费者对于SSD的选择更倾向于TLC,而非QLC。所以此次新的圆周率计算世界纪录诞生时,Solidigm D5-P5316作为一款QLC产品的表现,尤其是对于容量、成本、性能和耐用性的兼顾,着实令人感到意外。

QLC SSD整体性能大翻身?

无独有偶,SK海力士收购Intel NAND闪存业务重组而来的Solidigm,很快又发布了同样基于QLC闪存的全新企业级产品P5-D5430,再次引发了“QLC取代TLC”的话题讨论。据悉,P5-D5430采用大连Fab 68工厂出品的192层堆叠3D QLC闪存芯片(该厂的QLC产品占40%以上),容量从3.84TB到30.72TB不等(E1.S款最大容量为15.36TB),128K顺序读写速度最高为7GB/s和3GB/s,4K随机读写速度最高达971K IOPS和120K IOPS。而且它还具备高达90% IOPS一致性,以及大约6%的硬盘寿命可变性。简单说就是整体的可靠性更趋于一致,读写表现也非常平稳。

SSD

▲D5-P5430 30.72TB容量的产品预计今年下半年量产

从Solidigm的官方数据来看,相对其举例的企业级TLC产品,P5-D5430在顺序/随机读取性能上已经赶超了前者,但它却可以轻松实现更大的容量,以及最多14%的写入寿命提升(相对固定的写入负载下,对闪存擦写寿命的消耗速度会随容量上升而放缓)。也就是说,目前QLC产品唯一的弱势之处,只剩写入性能。而可能很多人想不到的是,QLC在企业和数据中心市场,写入性能这一指标在存储设备采购考量中的优先级,并没有那么靠前。

SSD

▲QLC和TLC SSD各项性能的实例对比

Solidigm亚太区应用工程部总监翁昀表示,对于存储设备,“除了关注性能参数,还要看一下实际的工作负载是什么样的……一些AI模型在3年内增长了1万倍以上,高清电影的数据量比几年前大9倍……数据读写方式在更多的使用场景里还是以读为主。几年前我和一家互联网公司交流过,他们主流的内容分发网络里,读7天,然后花一个晚上去做一些写入,然后再读7天,再花一个晚上写入。在94%的企业级工作负载当中,80%是读,20%是写。所以TLC SSD其实对于有些工作负载而言,并非最佳选择。”


 

AI时代对存储的需求到底是什么?

事实的确如此,甚至在AI时代“读多写少”会表现得更加明显。我们知道,AI业务中除了个别业务场景主要针对结构化数据进行分析外(例如消费记录、交易记录等风险控制、趋势预测场景),大多数场景需要处理的是非结构化数据,例如图像识别、语音识别、自动驾驶等,这些场景通常使用的是深度学习算法。

这也就意味着AI时代,存储领域面临四大挑战。

一是容量需求。人类社会产生的数据量正在以惊人的速度增长,预计到2025年全球每天将创建约463EB数据。5G、AI、物联网等应用源源不断地催生了大量数据流,它们各自提出了深度数据存储和随机速度的要求。

二是海量小文件。由于训练任务需要的文件数量都在几亿到十几亿的量级,所以存储需要能承载几十亿甚至上百亿的文件数量。同时,由于很多训练模型都是依赖于图片、音频片段、视频片段文件,而这些文件的大小大部分都是在几KB到几MB之间。

三是读多写少。AI环境的数据特点是读多写少,以视觉识别为例,它需要加载数千万甚至上亿张图片,针对图片使用卷积神经网络、ResNet等算法,生成识别模型。完成一轮训练后,为了减少图片输入顺序的相关性对训练结果带来的影响,会将文件次序打乱之后,重新加载,训练多个轮次。这就意味着每个轮次都需要根据新的顺序加载数千万乃至上亿张图片,因此对于存储的高吞吐、低延时提出了更高的要求。

四是可靠性。比如AI业务不同环境的数据组织方式不可控,很有可能用户会将大量文件存放在同一个目录,容易导致多个计算节点在训练过程中同时读取这一批数据,这个目录所在的元数据节点就会成为热点。那么目录热点读取的可靠性,存储介质在读取状态下的均衡性和平稳性就需要有所保障。

QLC产品总体拥有成本的巨大优势

其实一言以蔽之,大数据时代,或者说企业的数字化转型或是AI业务发展等多种需求下,多数场景存储的工作负载都处于“读多写少”的状态。在大部分场景中,如预训练任务只读取文件,中间很少产生中间数据,即使产生了少量的中间数据,也是会选择写在本地,很少选择写回存储集群。Solidigm援引相关数据指出,2020~2023年全球范围出货的数据中心级SSD,大约85%的每日全盘写入次数(DWPD)还不到1,甚至大多数SSD都不会有DWPD的评级。

SSD

▲对比全TLC阵列,以D5-P5430组成的7PB存储方案总体拥有成本更低。

此外,Solidigm D5-P5430产品具备U.2 15mm、E1.S 9.5mm和E3.S 7.5 mm等多种接口规格,最大容量达到30.72TB(将于年末推出),可以凭借大容量低成本的优势,更好地满足非结构化数据存储的需求。对比7PB全TLC阵列对象存储解决方案,它可以直接缩减一半的固态硬盘和服务器需求,降低18%的电力成本和33.3%的机架占地面积,功率密度提升26%,企业总体拥有成本降低27%。至于混合阵列方案,D5-P5430相对应的优势则更加显著,总体拥有成本降低多达39%。Solidigm亚太区销售总监倪锦峰还透露,“可持续性方面,HDD的年失效率现在是很高的,差不多在3%左右,这会导致后续废物处理的很多挑战,但是我们的SSD承诺的年失效率是0.44%,实际使用要比这个值低很多。也就是说(使用我们的QLC SSD)除了能减轻运维压力,后续废弃物处理的麻烦也会少很多。”

SSD

▲对比HDD+TLC SSD阵列的话,QLC整体成本优势更加突出。

写在最后

随着5G、大数据、云计算、物联网和AI技术的快速发展,数字化变革浪潮已是席卷各行各业,数据生成和存储需求呈现指数级增长态势,这也使得存储技术必须不断发展才能跟上新的工作负载和需求转变。在QLC SSD刚推出的时候,许多存储厂商都将首发目标对准了企业级市场,而不是消费级,原因就在于3D NAND技术通过堆栈更高的层数,可以轻松实现更大的存储密度,因此QLC颗粒的优势更适合大容量数据盘。

而如今通过最新的QLC产品,我们看到除了在带宽、读取性能、整体可靠性和耐用性等核心性能方面,QLC SSD在部分表现上已经追上TLC产品,还凭借着更高的存储密度,可以轻松实现容量和成本上的优势。对于需要平衡性一切因素和性价比的企业级市场来说,QLC产品无疑是更好的选择。因此,我们也看到包括京东、阿里、联想、戴尔在内的一众科技巨头,都已经开始成规模地选用QLC产品。而随着SSD纠错技术的不断迭代,QLC的可靠性也会越来越高,甚至我们可以期待,如果未来QLC产品在价格上与TLC拉开足够的差距之后,QLC会真正迎来逆天改命的新局面,在消费市场也唱响属于它的主旋律。

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分