存储服务质量不是一个单点问题。从系统的角度考虑服务质量的智能存储将成为未来的重要的方面。Memblaze CTO在日知录主办的2018日知录数据智能峰会上的分享开始就阐述了保障数据中心存储系统服务质量的观点,并在演讲中介绍了Memblaze保障存储系统服务质量的核心技术及研发理念进行了解读。
Memblaze CTO路向峰
路向峰分析了Flash技术给数据中心基础架构带来的影响,他指出:“NAND Flash给存储系统带来新机会的同时,也对于传统存储架构带来挑战。需要调整软件架构来释放Flash的能力。需要从单个存储部件、存储网络依赖关系和针对用户业务压力的优化三个方面考虑,提升系统的服务质量。“
在SSD内部,由于Garbage Collection和Flash Erase等后台任务的存在,在用户随机写工况下,系统的服务质量容易变差。为了定量研究这一情况,可以利用GMM概率模型对于IO写入的服务时间建模,并采用排队理论进行分析和仿真。根据该理论,采用写路径增加缓冲资源并根据负载情况调整缓冲区延迟策略可以改善和优化写工况下的服务质量。Memblaze针对几种不同的方案做了大量的仿真测试,并证实了上述几种方案对写延迟的降低效果。
原始方案与改进方案在平均延时、5x9和8x9延迟的比较
由于读延迟直接影响着最终用户的体验,所以从SSD到系统对于读的优化研究也至关重要。通常Flash的带宽远超存储接口带宽,不构成读的性能瓶颈,但是在读写混合的工况下,由于读命令受到写命令或擦除命令的干扰,服务质量容易变差,这里的写和擦除命令可能来自于业务压力,也有可能是SSD内部的Garbage collection和Flash Erase等后台任务。目前针对SSD读延迟的优化技术主要有Flash读命令优先;协商读数据恢复等级及多副本优化以及存储系统优化读写分时复用和空间隔离。
在具体实现上,Memblaze设计了更为复杂的算法,规避介质的缺陷等因素,并能够针对具体的业务压力,使SSD在响应服务平均时间和中断服务质量间找到平衡。
从存储系统的层面同样有多重技术可以用于改善Flash的读延迟,比如在采用了多副本技术或者是纠删码的存储系统中,就可以通过存储系统与设备进行协商,从多个数据获取方式中选择最佳延迟的方案进行读取数据、出错处理等操作,提升系统整体的服务质量。
在新的NVMe协议中,将提供了Predictable Latency Mode和NVM Sets的新接口能力,分别提供了时间和空间的隔离能力,分时复用和空间隔离要求顶层考虑使用Flash的行为加以限制,避免同时对同一个位置同时读写。
存储系统优化读写分时复用和空间隔离
在演讲的最后,路向峰谈到了基于AI的面向服务质量的智能系统,他认为“为了能够适应机器学习框架,需要把现有的存储系统逐步调整成为任务处理层和策略优化层。在任务处理层实现对于存储具体业务的处理,而在策略优化层,需要分析业务处理的性能和服务质量,并将合适的策略反馈给任务处理层。这些数据可供机器学习算法训练模型,在此基础上逐渐迭代和优化策略。”
提升用户体验是Memblaze工作的终极目标。针对不同的应用场景和工作负载, PBlaze系列NVMe SSD力求为用户提供更加平稳的高性能和更高的可靠性。多年实践中,Memblaze不仅掌握了大量核心技术提升SSD性能稳定性、寿命和可靠性,并且从设备到系统多个层面研究和验证不同方案对于提升用户体验的效果。这些工作和成果不仅推动了闪存和NVMe技术的发展,更是数据中心生态演进和完善不可或缺的组成部分。
全部0条评论
快来发表一下你的评论吧 !