在数字经济时代,海量的数据成为数字经济的重要生产要素,特别是受今年疫情的影响,线下的生产和生活迅速的转移到了线上,相应的数据也再次迎来了新一波快速增长。 对于百度智能云这样的云服务商来说,海量的数据既是资产也是压力,尤其是大量冷数据的产生让存储分层变得“迫在眉睫”。在此背景下,磁带库因性价比较高且能够快速写入,成为了百度智能云快速存档冷数据的理想之选。
但在实际应用中,百度智能云发现磁带库虽然可以快速写入数据,但数据首先需要在缓存盘上进行序列化,这就需要一款快速的缓存盘作为载体化解这一难题。基于此,百度智能云创新的引入了英特尔傲腾固态盘,借助其速度和耐用性兼备的特性,不仅大大提升了磁带库备份的速度,也满足了归档存储应用中繁重的读/写混合型工作负载的要求。 毫无疑问,百度智能云与英特尔的成功合作,不仅为数据归档和备份的优化和升级提供了重要的参考和借鉴方向,也让更多的行业和用户享受到了云存储服务所带来的好处,真正实现了冷数据在更长久周期内的可用性、可回溯性和可审计性。 冷数据带来的挑战 今天,海量数据的增长正在成为一种“新常态”,而保存和管理这些海量数据也变得日益困难,特别是把所有数据保存在同一个存储介质中更是不切实际的。 因此,业内通常的做法是,将数据根据类型的不同划分为三个分层,即热数据、温数据和冷数据。其中,最“冷”的数据十分适合存储到磁带库这种价格便宜的长期存储介质之中。
得益于光纤通道和串行连接 SCSI(SAS)等技术的发展,如今磁带库的顺序读写性能也得以不断提升。然而,磁带库本身的写入速度虽快,但是基于磁带库的备份架构却存在一个常常会妨碍数据以其最大速率写入磁带库的技术障碍。 具体来说,在将数据备份到磁带库上之前,首先需要将数据收集到缓存层的数据节点上,以便为写入磁带介质做准备(进行序列化)。对于此类数据节点中的SAS RAID缓存层磁盘,其读取和写入操作通常无法达到让磁带库管道饱和的速度,进而导致出现备份速度缓慢等挑战,无法发挥磁带库的高速潜能。
百度智能云旧备份架构中缓存盘面临的挑战 以百度智能云此前使用的机械硬盘(HDD)为例,其读取速度仅为200 MB/s,不但难以满足磁带库写入速度为每秒600 MB/s的要求,还把磁带库的备份速度降低了三分之二,使得大量数据存储归档和备份工作变得效率低下。 例如,通过安装在车队 300 辆车上的物联网(IoT)传感器,百度的自动驾驶汽车解决方案生成了大量数据,且已记录超过200万公里,这些物联网数据大部分被归类为“冷”数据,并通过数据节点发送到磁带上以进行长期存储,但由于缓存层磁盘速度较慢,使得这个工作变得十分的缓慢。 再如,百度的数据保留政策要求每3-6年就要将存储在磁带库上的数据转移至新磁带库,这就需要使用缓存盘,而这种超负荷的缓存工作负载(不断写入和读取越来越多的存档数据),同样也暴露出系统的低效率问题。 由此可见,快速的磁带库离不开快速缓存盘,缓存盘的性能之于数据备份速度的重要性不言而喻。为了打破缓存层磁盘带来的“瓶颈”,百度智能云希望通过寻找到一种更好的缓存驱动替代方案,以进一步提升磁带库备份的速度。 缓存盘选型的难题 根据自身的实际业务情况,百度智能云团队在考虑其缓存驱动的替代方案时,提出了以下数据层要求: 一是,读取速度要求方面,希望在写入压力很大的情况下,替代的缓存盘也需具备600 MB/s的读取性能,以匹配磁带库600 MB/s的写入速度。 二是,写速度要求方面,为了保持磁带写入速度饱和以提高成本效益,磁盘将新数据写入缓存盘的速度应至少与缓存数据写入磁带的速度相等,即600 MB/s。 三是,耐用性要求方面,磁带库的存储容量为16PB,而百度智能云团队希望缓 存盘能够持续服务三代磁带,为了实现此目标,缓存盘需支持总写入量为48 PBW (硬盘理论寿命所对应的总写入数据量)的耐用性。 为此,百度智能云团队首先研究了使用基于NAND的SSD替代数据节点上基于HDD的缓存盘。但是研究显示,基于NAND的SSD的局限在于,随机写入操作需要大量的后台介质管理,这会大大降低每个磁盘的吞吐量并缩短磁盘寿命。 在此基础上,百度的团队又评估多个 NAND 驱动器的两种配置,包括16盘 RAID0 的标准耐用性配置,以及6盘 RAID0+1的中等耐用性配置,虽然这两种配置方案都能满足600 MB/s的读取和写入要求,但却需要过多的NVMe插槽才能达到所需的吞吐率,这将使得维护工作变得更加复杂。 此外,根据设备规格进行的计算还表明,这两种配置方案也都不能满足耐用性要求,其PBW分别为30.72和36.75,显然和百度智能云所确定的48 PBW目标“相距甚远”。 不难看出,无论是传统的HDD还是基于NAND的SSD,都难以满足百度智能云希望实现的性能和耐用性要求,通过多方的对比,最终百度智能云团队将目标锁定在了英特尔傲腾固态盘上。 速度和耐用性兼备 测试显示,百度智能云通过采用英特尔傲腾固态盘作为数据节点上的缓存盘,该解决方案可在600 MB/s (随机)写入工作负载下,实现 600 MB/s 的读取性能。与基于 NAND 的固态盘不同,英特尔傲腾固态盘的优势还在于,无论其写入压力如何,都能保持读取响应时间不变。
将英特尔傲腾固态盘的镜像用作缓存盘,满足了百度的备份解决方案要求 不仅如此,英特尔傲腾固态盘的高耐用性(164 PBW 和每日整盘写入次数为 60 DWPD),远远超出了48 PBW的耐用性要求,通过这一全新解决方案,百度可以在 相同时间内备份三倍的数据量。 可以看到,借助英特尔傲腾固态盘,百度智能云不仅实现了出色耐用性的同时,也满足繁重的读/写混合型工作负载带宽要求,而通过此解决方案,百度现在备份相同数据量所需的时间比之前的解决方案减少了67%。 对此,百度智能云相关人士表示:“英特尔傲腾固态盘凭借其高带宽、高耐用性、低延迟和易于维护的优势,为百度带来了高价值,并帮助我们加快创新磁带库解决方案,同时降低成本、提高效率。”
值得一提的是,百度智能云还进一步发挥其产品及技术优势,将英特尔傲腾方案推上云端,以智能云虚拟化块存储 CDS、云原生数据库 GaiaDB 等产品为出口,打造云上多样解决方案。而傲腾方案在较大的写入压力下依然能保持数据的快速响应及高性能读写,让百度智能云为客户提供超低成本及便携的数据管理能力,输出持续先进的云服务,丰富云端存储产品和体验打下了坚实的基础。 总的来看,今天数据的生命周期正变得越来越长,特别是过去几年国家出台了信息安全和个人隐私的相关法律,而被合规、数据保护等痛点困扰的企业也不在少数;再加上企业对数据越来越重视,特别是某些关键领域的企业甚至要求生产环境下的数据,需要有五年、十年,甚至数个十年的保存,由此也让数据归档变得更加重要。 目前,类似的需求在视频监控、生命科学、金融服务、媒体和娱乐、政府、医疗等行业特别明显。所以,未来如何保障数据在更长久周期内的可用性、可回溯性、可审计性,无疑今天用户最为关注的话题。
而在此过程中,百度智能云通过将英特尔傲腾固态盘作为缓存数据提升磁带库备份速度,不仅破解了海量数据增长带来的归档和备份的压力,也为众多用户提供了更为丰富的产品体验。
原文标题:【观察】百度智能云:释放“傲腾上云”红利,重新定义归档存储服务
文章出处:【微信公众号:高端存储知识】欢迎添加关注!文章转载请注明出处。
责任编辑:haq
全部0条评论
快来发表一下你的评论吧 !