破解全闪存存储介质寿命难题的六大招数

描述

SSD(固态硬盘)的寿命问题是用户使用全闪阵列时关注的焦点。如何能够让用户放心使用全闪阵列,保障在5年内存储系统不会因为SSD寿命耗尽而出现问题,是全闪阵列厂商面临的挑战。浪潮存储通过优化智能全闪G2-F的软件栈,实现了SSD介质的磨损均衡,使得智能全闪G2-F可以在长达5-10年的全生命周期内,给闪存介质上的数据提供安全保障。

HDD和SSD可靠性上存在天然差异

HDD(硬盘驱动器)是通过机械旋转加磁介质记录数据的,而SSD则通过硅晶半导体记录数据。二者记录数据方式的差异决定了两种类型的盘在存取速度和可靠性方面具有本质差异。

HDD由磁头和盘片组成,数据存放在盘片上的某个位置,当对数据进行读写,需要将磁头移动到磁道上,盘片转动到指定的位置。所以HDD是一个机械设备,只要加电,磁盘就处于高速旋转工作状态。磁介质本身的寿命是非常长的,所以磁盘的寿命并不取决于读写的数据量,而取决于磁盘的上电时间。不过,磁盘的寿命跟工作环境有很大的关系,比如震动对磁盘的寿命影响就非常大。

两种存储介质

而NAND的存储单元为三端器件,与场效应管有相同的名称:源极、漏极和栅极。如下图所示,浮栅极是用来保存电荷的的,浮栅极与硅衬底之间是隧道氧化层,与控制栅极间也有一层绝缘层,上下两层绝缘层保护浮栅极中的电荷不会泄漏。采用这种结构,使得存储单元具有了电荷保持能力,通过让绝缘浮置栅极捕获不同数量的电子以实现bit值定义。就像是装进瓶子里的水,当你倒入水后,水位就一直保持在那里,直到你再次倒入或倒出,所以闪存具有记忆能力。

NAND Flash原理示意图

而对浮栅极的充放电,是利用量子隧道效应实现的。当我们要对FLASH进行写入操作的时候,在控制栅极上加高电压,源极和漏极接地,使电子穿越隧道氧化层到达浮栅极,并聚集在浮栅上保持,形成电压,用来存储信息。进行擦除时仍利用隧道效应,把电压反过来加,从而消除浮栅上的电子,达到清除信息的结果。

由于在写入和擦除的操作过程中,电子反复来回穿越隧道氧化层会损坏隧道氧化层,当绝缘氧化层破坏到一定程度,浮栅极中的电荷便不能再有效保持,导致存储单元物理损坏。这就是NAND Flash会有写入次数限制的原因。

由于在写入和擦除的操作过程中,电子反复来回穿越隧道氧化层会损坏隧道氧化层,当绝缘氧化层破坏到一定程度,浮栅极中的电荷便不能再有效保持,导致存储单元物理损坏。这就是NAND Flash会有写入次数限制的原因。

HDD的实现原理和Flash完全不一样,HDD由磁头和盘片组成,数据存放在盘片上的某个位置,当对数据进行读写,需要将磁头移动到磁道上,盘片转动到指定的位置。所以HDD是一个机械设备,只要加电,磁盘就处于高速旋转工作状态。磁介质本身的寿命是非常长的,所以磁盘的寿命并不取决于读写的数据量,而取决于磁盘的上电时间。不过,磁盘的寿命跟工作环境有很大的关系,比如震动对磁盘的寿命影响就非常大。

通过对比SSD和HDD的工作原理,你会发现二者的故障模式有非常大的差异。传统的磁盘软寿命限制,因此需要对SSD的寿命管理进行精细设计,以此实现全闪存储介质的生命周期管理。

浪潮智能全闪:六招实现SSD介质全生命周期管理

在上一篇关于如何减少SSD磨损的文章《写放大<1:浪潮智能全闪G2-F闪存阵列是如何做到的》中,已经详细介绍了浪潮智能全闪G2-F全闪存储多项全闪存储的专有黑科技如何通过减少对SSD的写入量,从源头上提高SSD的使用寿命。但减少写入只是保障可靠性的一个方面,对于各种原因导致的部分SSD出现坏块,还需要及时的检测、预测和处理。下面让我们来看看浪潮智能全闪G2-F都有哪些大招,来实现SSD全生命周期精细管理以应对SSD的寿命挑战。

招数1:T10 DIF杜绝静默数据损坏

出了问题,首先要检测到,防止静默数据损坏。未被检测到的静默数据损坏会导致业务系统的严重后果。

T10 DIF(Data Integrity Field,数据完整性域)是用户数据的一种端到端的保护机制,写入数据的时候在数据块末尾加入PI(Protection Information,保护信息)字段,存放数据的校验信息。当存储端接收到带有PI的数据之后,会将PI信息保存起来,这样在读取的时候会重新计算,使得掉电,硬重启,卷重启,链路丢失等都不会导致PI数据的丢失。浪潮智能全闪G2-F全系列通过支持T10 DIF检测,杜绝了静默数据损坏。

招数2:SSD寿命预测提供事先警告

既然SSD寿命有限,SSD什么时候临近寿命终点、什么时候需要更换,就成为用户和存储系统管理员最关心的事情。全闪存储系统需要在SSD临近寿命极限时对用户进行预警,给用户预留更换乃至采购替代品的时间。同时,如果用户的业务模型、业务流量和初始设计时发生了巨大变化,存储系统也需要给出预警信息,让用户采取措施调整业务模型或者数据布局,将大流量的数据写入业务迁移到其他存储上。这些必要的功能在浪潮智能全闪G2-F系列产品上进行了全面配备,其中包括:

监测寿命衰减速度:浪潮智能全闪G2-F定时检查SSD使用寿命百分比,寿命衰减速度过快时会上报并告警,提醒用户SSD盘异常,建议更换或者改变业务模型。

实时监测使用寿命:当SSD盘使用寿命达到97%,系统会建议用户更换SSD盘;达到99%,会警告用户及时更换SSD盘

智能剩余生命周期预测:浪潮智能全闪G2-F会根据用户业务历史流量及模型,对SSD可使用时间进行预测,并根据用户业务模型的变化,实时调整预测周期。当预测到SSD剩余寿命大概为6个月时,会产生告警,提醒用户关注SSD寿命。

招数3:RAID寿命预测与自动化功能凸显神通

当RAID成员盘的寿命临近极限时,系统会发出告警,使用CLI命令或GUI界面,检查每个成员盘的“更换日期”字段,来确定需要更换的成员盘。如果RAID个别成员盘临近寿命极限,只需更换个别成员盘,利用RAID冗余数据重建,更换盘后,RAID自动重建该成员盘。

当RAID多个成员盘临近寿命时,系统自动更换RAID  Group。浪潮智能全闪G2-F可以利用数据迁移功能自动将该RAID中的数据在线迁移出来,方法是直接删除该RAID——数据迁移功能会先将该RAID上的数据迁移到存储池的其他RAID上,然后再删除。如果存储池其他RAID上没有足够的空间,删除会失败,需要先向存储池添加新RAID后再删除。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分