本工作发表于FAST 2022。首次基于一家主要存储供应商的近200万个SSD的大量企业存储系统,对生产使用中SSD的关键操作特性进行了大规模的现场研究。
基于本文,可以得到以下重要发现:
发现1:大多数SSD以非常慢的速度消耗PE周期。
发现2:用作缓存的SSD的主机写力度明显高于用作持久存储的SSD。然而,并没有看到更高的NAND使用率,因为他们也经历了更低的WAF。因此,并不一定需要对缓存工作负载使用更高的持久性驱动器
发现3:不同驱动器家族和制造商的WAF差异显著(数量级)。
发现4:避免retention问题所作的后台工作是WAF的一个很大的原因。
发现5:磨损水平度并不完美。5%的SSD报告的擦除比率超过6,也就是说,驱动器中有些块的磨损速度是平均块的6倍。
发现6:AFF系统平均已经满了43%。在生产的头几年,系统丰满度增长得更快,之后增长缓慢。容量最大的系统比容量较小的系统更满。
发现7:在研究的系统中,与SSD相关的绝大多数工作负载(94%)是读取主导的,中位数R/W比为3.62:1,突出了基于SSD和基于HDD的系统在使用上的差异。
背景及动机
随着SSD部署的越来越多,了解它们在实际现场的操作特性是非常重要的,特别由于它们的操作方面不同于HDD。了解操作特性有助于我们更好的了解SSD在实际大规模工作环境中的表现,同时给未来的闪存部署带来新的思考。
操作特性方面的研究,包含SSD所经历的写放大水平以及它如何受到各种因素的影响;磨损水平的有效性;或者是现场设备使用它们的(PE)周期限制的速率,以及这对向耐力较低的下一代flash的过渡意味着什么。本文首次基于一家主要存储供应商(NetApp)的近200万个SSD的大量企业存储系统,对生产使用中SSD的关键操作特性进行了大规模的现场研究。
研究问题
1、在生产系统中设备的写入量是多少以及他们距离达到磨损极限有多近?这对未来新一代耐磨性更差的闪存来说意味着什么?
2、设备在生产系统中写入放大程度如何?这些数字与先前的学术工作中的报告相比如何?
3、SSD在生产环境中的磨损水平如何?
4、写放大如何受到各种因素的影响,包括FTL相关因素(例如,设备模型、固件版本、OP设置、是否支持多流写)和工作负载因素(例如,写入量和读写比率,设备是用作缓存还是持久存储,设备在RAID中的角色是数据、奇偶校验还是分区)?
系统描述
数据量:200万个设备;
数据种类:三个不同的制造商,总共20个不同的系列,每个系列的划分依赖于制造商、容量、颗粒类型等;
数据内容:使用方面的信息,如主机读写,总物理设备写,以及每个驱动器的磨损水平和写放大的信息。此外,我们的数据包含每个系统的配置,包括其所有RAID组和RAID组中每个驱动器的角色(即数据或奇偶校验)等;
系统分类:企业系统:一种使用SSD作为HDD上的缓存层(称为WBC),另一种由仅闪存系统组成,称为AFF (AllFlash结构-缓存存储(FAS));
数据来源:NetApp Active IQ ,类似于SMART技术。
操作特征
write rate:对于盘的写入数据的程度, write rate越大越说明运行在盘上的工作负载是写密集型的。
WAF:写放大。考虑其也是SSD磨损的重要原因。
wear leveling:均衡磨损。由于不同盘的固件不同,导致FTL中的均衡磨损算法差异较大,因此影响到盘的磨损。
fullness:设备丰度。指的是在整个系统在容量中真正被用到的部分。因为fullness的程度会很大程度上影响盘内 的后台操作,尤其是均衡磨损和垃圾回收。
1. Write Rate
write rate的衡量标准是DWPD(每日全盘写入次数),指每日写入的数据量能够覆盖全盘的次数。
分三个角度进行考虑:系统类型、盘的容量、盘的种类。
发现1:DWPD的平均值是0.36,能够满足现有几乎所有盘的要求。但是7%的盘超过3,2%的盘超过10。
发现2:从主机写的情况来看,WBC系统相比较AFF系统来说,write rate要高的多。平均值3.6X,99th%10.6 。(猜测和系统中盘的容量大小有关,因为DWPD和全盘的容量有关。而作为cache的SSD容量大小肯定低于纯flash的容量)。
发现3:WBC系统的盘有一个很长的尾端分布。99th%到达40,99.9th%到达76 。说明在WBC系统中,对于SSD的耐久挑战很大。
发现4:容量越小的盘write rate程度越高。
发现5:对于不同种类的SSD,其write rate程度相差较大。并且对于AFF和WBC系统来说,那些DWPD超过平均值的SSD种类基本相似。
2. WAF
发现1:从整体上看,WAF的分布和先前的研究有很大的不同,先前专注于金融应用服务分布在1.3、华为3D-TLC则分布在1.5。但是98.8%和96%的SSD观察到的WAF分别大于1.3和1.5。
发现2:I-C、I-D和I-E种类的WAF比其他大多数的盘种类高一个数量级。这是为什么这三个种类的主机写入量不大,但是却有很高的nand使用率。但是这和工作负载关系不大,没有迹象表明这三种类型的盘用于其他不同类型的应用。原因在于这三类盘在空闲时有大量的后台工作。主要用于解决retention问题。但是这个问题在之前的研究中非常容易被忽视。
发现3:只比较同一个种类的SSD,WAF也存在不同的分布。
发现4:对于相同的盘类型,WBC系统的WAF明显低于AFF系统,这表明WBC工作负载更对闪存友好。就缓存要求而言,在缓存中的应用被认为是要求最高的,而广泛接受的最佳实践建议对这些应用程序只使用具有最高
耐久性的驱动器。观察表明,这可能并不总是必要的。
3. Wear Leveling
文章定义了两个标准用来看均衡磨损是否有效:
发现1:磨损水平并不完美。中值擦除比为1.55,表明最大块比平均块多执行55%。5%的盘的擦除比大于6。
发现2:不同种类之间的磨损等级指标存在显著差异。例如,I-C和I-D盘报告的磨损水平指标明显更高(尽管与其他一些种类的年龄、容量和DWPD相似),不同的制造商在均衡磨损方面遵循非常不同的理念:当查看擦除差度量时,看到擦除差最大的四个种类都属于同一个制造商(即I)。
4. Fullness
发现1:平均系统的满容量约为45%,中值也约为45%,即超过一半的存储容量是空闲的。各系统的丰满度分布大致一致。CDF变化点仅高于80%,即低于80%的可能性大致相等,而高于80%的值则相对不太常见。
发现2:系统的丰满度会随着年龄的增长而增加。但是增长速度不一致,头两年明显更快。但是有一些非常年轻的系统很满,一些旧系统很空:略高于5%的年轻系统(不到1岁)超过80%,而19%的旧系统(超过4岁)不到25%。
发现3:总容量较大的系统往往更满:最大的系统比其他系统多1.7×(按中位数计算)。说明,购买更大容量系统的客户确实有更大的容量需求,并且也能更好地预测他们需要多少存储容量。
Which factors impact WAF?
因素1:FTL。在同一个种类、同样容量的SSD盘中。固件版本FV2和版本FV3上的驱动器的WAF之间有明显的区别。
因素2:工作负载。因为无法直接获取工作负载的特性,因此通过五个角度特征代替:DWPD、RAID组中的角色、容量、接口、读写比。
因素3:DWPD。在不同的容量和驱动角色中,WAF随着DWPD数量的增加而减少。这可能表明SSD在更高的写力度下更有效地运行(在后台任务和WAF方面)。这也可能意味着一些FTL背景功是恒定的,即不强烈依赖于DWPD;因此,较高的DWPD会降低这种恒定功对WAF比值的影响。
因素4:角色。不同角色盘的WAF的显著差异。对于分区SSD的较高WAF的一个可能的解释可能是,它们被迫处理来自具有潜在不同特征的不同工作负载的请求,因此经历了写模式的混合。同时需要注意,随着数据量的增加,差距减少。表明写力度对WAF的影响大于它的作用。
因素5:容量。高容量的主机SSD(即8TB和15TB)与相同的小容量相比,经历更低的WAF,当主机总写量较低时,差异更明显。尽管如此,与960GB SSD相比,3.8TB SSD经历的WAF略高,这表明更小容量的SSD不一定会经历更高的WAF(即,其他因素对WAF的影响更强)。
因素6:设备接口。使用NVMe接口的盘明显经历更少的WAF。考虑到NVMe还是新技术,因此可能的原因在于,使用NVMe的盘会用于一些特定的应用,导致工作负载上的差别,从而体现在WAF上的不同。同样的,多流技术、op占比也是如此。
Read/Write (R/W) Ratios
发现1:绝大多数盘,约94%,经历的读取多于写取。中位数为3.6:1,95th%为61:1。这与基于HDD的系统相差很大,先前的研究均经历写大于读。在华为的数据中,均为写大于读,MLC读写比在0.5左右,TLC读写比在0.57左右。
发现2:AFF系统中的R/W比值随时间的推移保持相当稳定,这表明相应的工作负载的特性不会随时间发生显著变化。
Most Important Findings
整理一下文章所有的观点可以得到以下重要发现:
发现1:大多数SSD以非常慢的速度消耗PE周期。
发现2:用作缓存的SSD的主机写力度明显高于用作持久存储的SSD。然而,并没有看到更高的NAND使用率,因为他们也经历了更低的WAF。因此,并不一定需要对缓存工作负载使用更高的持久性驱动器
发现3:不同驱动器家族和制造商的WAF差异显著(数量级)。
发现4:避免retention问题所作的后台工作是WAF的一个很大的原因。
发现5:磨损水平度并不完美。5%的SSD报告的擦除比率超过6,也就是说,驱动器中有些块的磨损速度是平均块的6倍。
发现6:AFF系统平均已经满了43%。在生产的头几年,系统丰满度增长得更快,之后增长缓慢。容量最大的系统比容量较小的系统更满。
发现7:在研究的系统中,与SSD相关的绝大多数工作负载(94%)是读取主导的,中位数R/W比为3.62:1,突出了基于SSD和基于HDD的系统在使用上的差异。
审核编辑:汤梓红
全部0条评论
快来发表一下你的评论吧 !