数据的增长和对提高电源效率的需求导致了创新的存储解决方案。
HDD的密度一直在增长,但性能却没有增长,而TLC闪存的价格仍然限制着扩展。
QLC技术通过在HDD和TLC SSD之间形成中间层来解决这些挑战。与现有的TLC SSD相比,QLC具有更高的密度、更高的功率效率和更低的成本。
如今,HDD是大多数数据中心的首选存储解决方案,因为与TLC闪存等其他解决方案相比,HDD的成本和功耗更低。但是,虽然HDD的尺寸越来越大,但它们的I/O性能却没有提高。换句话说,HDD的每TB带宽一直在下降。这迫使数据中心工程师通过将热(经常访问的)数据转移到TLC闪存层或过度配置存储来满足他们的存储性能需求。
自2009年以来,QLC闪存技术一直存在。之所以采用速度缓慢,是因为它一直在较低的容量上运行——小于32TB。此外,高成本和有限的写入持久性也使其在数据中心中无法成为TLC的一个有吸引力的替代方案。
与此同时,HDD密度一直在增长,但吞吐量没有显著增加。随着给定驱动器上存储的数据越来越多,对I/O的需求也相应增加。HDD容量的持续致密化导致了BW/TB的持续下降。这对一部分热工作负载产生了负面影响,并迫使数据滞留在HDD上。

QLC闪存在HDD和SSD之间的性能谱中占据了一个独特的空间,用于服务仍然依赖于10 MB/s/TB范围内的性能的工作负载。此外,还有一些工作负载在做大批量的IOs,它们不需要非常高的性能,但仍然在15~20MB/s/TB的范围内,并且使用TLC闪存。
作为HDD之上的一层引入的QLC闪存可以满足写入性能要求,并且在耐久性规格上有足够的空间。所针对的工作负载是读带宽密集型的,具有不频繁和相对较低的写带宽需求。由于任何NAND闪存介质的大部分功耗都来自写入,因此希望工作负载通过使用QLC SSD实现更低的功耗。
2Tb QLC NAND芯片的出现以及32层芯片堆叠成为主流,说明了QLC闪存在NAND封装级别和硬盘级别的密度增长速度有多快。
我们预计在近期和长期内,QLC SSD的密度将大大高于TLC SSD的密度。这将对服务器和机架级别的字节密度带来有意义的影响,并有助于降低硬盘和服务器级别的每TB获取和电源成本。

Meta的QLC
Meta的存储团队已经开始与Pure storage等合作伙伴密切合作,利用他们的DirectFlash模块(DFM)和DirectFlash软件解决方案,为Meta带来可靠的QLC存储。Meta还与其他NAND供应商合作,将标准NVMe QLC SSD集成到数据中心中。
虽然目前QLC的成本比TLC低,但在价格上还没有足够的竞争力,无法广泛部署。尽管如此,功耗效率的提高是实质性的,上述用例预计将从中受益匪浅。考虑到HDD随着密度的增加(降低BW/TB)而持续变冷,以及NAND的成本结构随着技术的进步而改善,我们认为增加QLC层是正确的前进道路。
采用QLC的硬件考虑
而E1.S作为一种外形尺寸对于我们的TLC部署非常有用,但它并不是扩展我们的QLC路线图的理想形式因素,因为它的大小限制了每个硬盘的NAND封装数量。
行业标准U.2-15mm仍然是SSD供应商普遍采用的外形尺寸,它使我们有可能扩展到512TB的容量。目前E3并没有带来超过U.2的额外价值,E3的4个版本之间的市场分散也使得它的吸引力降低。Pure Storage的DFM可以使用相同的NAND封装技术扩展到600TB。设计支持DFM的服务器允许SSD插槽也接受U.2 SSD。该策略使我们能够在成本竞争、进度加速、功率效率和供应商多样性方面获得最大的收益。
QLC SSD的主要优点是SSD和服务器级别的字节密度以及相关的功率效率。在Meta中,基于QLC服务器的字节密度目标是我们目前发布的基于TLC服务器密度的6倍。尽管QLC的预期BW/TB比TLC低,但QLC服务器字节密度需要更高性能的CPU、更快的内存和网络子系统来利用媒体功能。
为QLC调整我们的存储软件
在QLC中采用Meta现有的存储软件带来了一些有趣的挑战。如上所述,我们的QLC系统密度非常高,目标是将QLC SSD作为比HDD性能更高的介质。这提高了吞吐量期望,超出了我们曾经拥有的任何单个服务器吞吐量。
在CPU内核和插槽之间扩展如此高的吞吐量需要仔细放置数据和计算来处理I/O。我们需要确保最小化数据接触点,并且可以按类型分离I/O。Pure Storage解决方案中的软件栈使用Linux用户空间块设备驱动程序(ublk)设备,通过io_uring将存储作为常规块设备公开,并启用零复制以消除数据复制,同时在后台与用户空间FTL(DirectFlash软件)通信。
对于其他供应商,堆栈使用io_uring直接与NVMe块设备交互。
此外,QLC SSD的读吞吐量和写吞吐量之间存在显著差异。在QLC的情况下,读吞吐量可能高达写吞吐量的4倍甚至更多。更重要的是,关于读的典型用例是延迟敏感的,所以我们需要确保传递大量读BW的I/O不会在写之后被序列化。这需要构建和仔细调优速率控制器和I/O调度器。
期待
Meta认识到QLC SSD在数据中心工作负载的存储成本、性能和功耗方面的潜力是一个可行的、有前途的优化机会。随着闪存供应商继续投资于先进的晶圆厂工艺和封装设计,并增加QLC闪存的产量,我们预计QLC闪存的成本将大幅提高,从而使QLC闪存在更广泛的数据中心工作负载中逐渐变得更具吸引力。我们很高兴能够在这个不断发展的存储空间中推动创新、促进协作和促进生态系统的一致性。
全部0条评论
快来发表一下你的评论吧 !