(作者 :浪潮信息首席架构师 叶毓睿)全球存储性能委员会(SPC)是由世界级存储供应商联合组成的一个非盈利机构,是一个专注于存储行业供应商性能评测的中立机构。针对存储行业的需求和关注,SPC创建了全球第一个存储行业标准的性能标准。从组件级评估到完整的存储系统测量,SPC提供了严格的、经过审计的、可靠的和可重复验证的性能度量。
SPC-1基准测试,设计了存储系统在企业关键业务应用场景下的负载模型,覆盖结构化数据为主的数据库、电子邮件等在线事务处理(OLTP)应用,其IO模式特征包括读写响应时间敏感度、工作负载的多样性及动态变化、性能表现长时间稳定可靠等共计8种数据访问行为的模拟。
每个测试的存储型号对应的SPC-1报告都包含两个版本:Executive Summary(英文缩写为ES,也即精简版)和Full Disclosure Report(英文缩写为FDR,也即完整版),完整版包括了详细的测试环境、定义、流程、数据表等信息。另外,为了体现公正性和可验证的特点,SPC官网还提供了报告的支持文件,也即SF,Supporting Files(英文缩写为SF,也即支持文件)是一个ZIP压缩包,包括了脚本(如WORKLOAD GENERATOR,工作负载生成器)、配置文件,以及在测量过程中所取得的结果(如摘要、电子表格等)。
SPC-1要求非常严格,为了更接近用户真实使用情况,全球存储性能委员会在许多细节上做出了限制。例如,在开始评估性能之前,存储系统要进行长达8个小时持续写入的稳定性测试(简称长稳测试,也即SUSTAIN TEST),避免存储阵列的缓存命中,或全闪存阵列初次写入,导致性能虚高。
为了进一步详细了解这一优异性能背后的含义,下面我们会从可靠性、稳定性、性能、成本等方面进行剖析。并结合榜单上其他数据进行对比分析。
剖析SPC-1组成部分
http://www.spcresults.org/specifications#spc-1可以下载到2021年1月1日启用的SPC-1较为新的版本v3.10的详细介绍,有105页。和上次浪潮存储16控登顶(2020年3月),AS5600G2的752万IOPS采用的v3.10相比,变化不大。
不过,在2020年5月8日,SPC启动了一个名为The SPC-1 Gold Star的计划,详情可见https://www.storageperformance.org/goldstar。
Gold Star计划推动五项新扩展,新的基准扩展提供了对存储系统支持现代企业数据可管性的关键能力的真实评估:
1)数据缩减 Data Reduction2)快照管理 Snapshot Management3)数据复制 Data Replication4)无缝加密 Seamless Encryption5)无中断软件升级 Non-Disruptive SoftwareUpgrade
以无中断软件升级(Non-Disruptive Software Upgrade)为例:无论是计划内的,还是计划外的,企业级存储阵列长期以来一直在努力减少停机时间。任何真正寻求尽量减少停机时间的阵列的一个关键特性,都是能够在保持数据访问的同时,升级阵列上的软件。这种扩展需要在中等负载下进行成功的、无中断的升级。
为了突出显示其SPC-1性能指标和执行所需全面扩展的额外任务能力,如果测试厂商通过了这些新扩展的基准测试,SPC 允许用 SPC-1 GoldStarLogo(也即金星标志)来公布测试报告。
下面详细剖析SPC-1规范中对可靠性、性能、可用性和成本价格等多个维度的评估标准。
其一,可靠性。
在整个测试过程中,多个阶段都会检验数据的一致性。例如初始化阶段、SPC度量阶段(Primary Metrics Test Phases)、关电重启再校验数据的一致性,确保存储能够经受高可靠性的严格测试。
SPC-1还要求合规的TSC能够防止单点故障。并明确提出:任何存储设备在TSC中的单点故障,都不要用户干预,来恢复对基准数据库的访问;任何组件在TSC中的单点故障,都不要用户干预,来恢复对基准数据库的访问。
SPC-1测试对存储产品的可靠性要求
备注:TSC指Tested Storage Configuration,用于测试的存储的配置。
其二,IOPS。
SPC-1 IOPS是一个科学的,但又复杂的I/O模型的负载组合。参与厂商需要对自己的存储有着深入的了解,先预估出比较合理的性能高峰值。然后再根据这个值,运行SPC-1的I/O模型,检验在延时、可靠性、扩展性等基准测试的约束下是否能够符合要求。如果不符合,再去调整性能高峰值。
备注:在SPC规范里特别强调,所有特殊的基准测试,也即用来改进测试结果,但如果不是普遍的、真实世界的性能实现,都是禁止的。如果详细剖析I/O模型,我们会发现其测试负载组合模拟了用户的各种常用业务场景,因此是科学的、全面的。
如果预估值是2300万IOPS,那么负载百分比(Load Percentage)为100的时候,压测的性能就是按照2300万IOPS准备的。例如下表的RAMPD_100、SUSTAIN、RAMPU_100、REPEAT_1_100、REPEAT_2_100。而RAMPD_10对应的Load Percentage是10,也就意味着这个Test Group的压测按照10%,也即230万IOPS准备。
SPC-1测试阶段
下图是一份简单易懂的表格,三个ASU的读负载总和为39.44%,写负载总和为60.56%,两者之和为100% 。
ASU业务应用存储单元的测试数据
三个ASU(ApplicationStorage Units,业务应用存储单元),分别提供45%、45%、10% 存储空间比例,总和为100%。每个ASU有着不同的IO流, ASU1是Data Store,例如它的第三类IO流(其实就是混合负载SMIX),也即上面表格中字段名为“IO块大小”,对应的记录为ASU1的第三行,它的IO块大小不是固定的,从下表能看出,它是从8个block到128个block不同Transfer Size的组合,意味着IO块大小是从4k到64k,根据下面转载表格提供的Size大小及百分比,不难算出SMIX负载的平均IO大小为14.4KB。
ASU1也即DataStore的混合负载SMIX
不同ASU的不同IO流,都有着各自的流负载,并规定了读写比例。所有IO流(总共8种)的读负载总和与写负载总和之和为100% 。
下面再详细列举一下ASU1的四类I/O数据流:
ASU1也即DataStore的四类I/O数据流
作为Data Store的ASU1的IO读较多、写较少。其他ASU,如作为UserStore的ASU2的IO读较少、写较多;而作为Log/Sequential Write的ASU3,是100%的写。这样,就能比较全面的覆盖用户各种常用业务场景。ASU2和ASU3的IO流细节依次如下:
ASU2也即UserStore的三类I/O数据流
ASU3也即日志/顺序写的I/O数据流
其三,延时。
延时方面的指标至少有三个。
一是平均延时,也即SPC-1 IOPS Response Time。一般各个IT厂商新闻类文章里提到的延时就是这个。例如2020年3月,浪潮存储AS5600G2获得752万IOPS、0.472毫秒;以及2021年8月,浪潮高端全闪HF18000G5获得2300万IOPS、0.294毫秒(低于0.3ms)。
二是延时带宽对比图,也即Response Time vs. ThroughputGraph。
坐标轴的横轴是从RAMPD_10到RAMPD_100的6个IOPS取样点,纵轴是平均响应时间,例如预估性能最高值是2300万IOPS,取样点则包括230万IOPS(也即RAMPD_10)、1150万(RAMPD_50)、1840万(RAMPD_80)、2070万(RAMPD_90)、2185万(RAMPD_95)和2300万IOPS(RAMPD_100),坐标轴的纵轴对应的延时毫秒值。
随着测试负载的增加,如果平均延迟呈线性,或者缓慢增加,并未出现陡增的拐点,意味着存储系统稳定性和潜力较好。例如下图,浪潮高端全闪HF18000G5的表现优异。
响应时间与吞吐量对比图
三是总体响应时间,也即Overall Response Time。
SPC-1的总体响应时间的计算公式如下,它采用类似方差的方式,通过计算相邻IOPS取样点之间延时的差异,来评估总体延时的波动或偏离程度。如上图黄色间断线所示。
总体响应时间计算公式
其四,稳定性。
长稳测试阶段证明了连续测量期间,最大的可持续I/O请求至少需要8小时。其目的是,能够容易为客户、顾问或业内厂商证明SPC-1 IOPS的结果,在需要长期I/O请求的业务系统环境中,能够保持长期持续稳定的性能。
此测试阶段计算的I/O请求吞吐量必须在报告的SPC-1 IOPS 结果的5%以内浮动。从OLTP类应用的需求考虑,延迟小于30毫秒才算通过;不过,大多数送测厂商会觉得超过2毫秒,甚至超过1毫秒就无法接受了。
长稳测试阶段可以约束报告的SPC-1 IOPS的结果(也即最大值)。长稳测试阶段必须在与RAMPD_100测试阶段相同的负载水平上运行。
最后,成本。
成本方面的指标至少有两个。
一方面是性能价格比。SPC-1 PRICE-PERFORMANCE,SPC-1总性价比的计算方式是使用系统总价格除以SPC-1 IOPS,有时衡量单位是$/SPC-1 KIOPS,表示每千个SPCI-1 IOPS的价格。
另一方面是容量价格比。SPC-1 ASUPrice定义为总系统价格除以SPC-1 ASU的容量,衡量单位是$/GB。
https://spcresults.org/benchmarks/results/spc1-spc1e 可以下载到各个厂商在不同时期的产品测试报告。我们选取几个重要的报告和信息来进行解读和比较,以浪潮高端全闪HF18000G5和其他排名靠前的厂商或产品为例。如下图红框内所示,可单击下载ES(精简版,PDF格式)、FDR(完整版,PDF格式)和SF(支持文件,ZIP格式)。
第一,概览。
在浪潮高端全闪HF18000G5的SPC-1精简版报告《A32023_ES》这个PDF里,能看到几乎所有的重要信息。其中包括2300万(精确值是23001502)的SPC-1 IOPS;SPC-1 性能方面的性价比为$375.56/SPC-1 KIOPS(远好过于总榜第二名,第二名SPC-1 IOPS约为2100万,该报告对应的文件是A32018_ES.pdf),容量价格比为$10.58/GB。
平均延时SPC-1 IOPS Response Time为 0.294毫秒,总体响应时间SPC-1 Overview Response Time为0.246毫秒,整个系统设置为Protected 2,能防止单点故障;数据保护方式为RAID 10。
根据SPC-1 IOPS以及ASUCapacity的配置,并结合SUSTAIN–Data Rate Graph图表,我们还可以计算出来,在SPC开始统计性能之前,长达8小时的持续入(SUSTAIN 长稳测试),使得整个浪潮高端全闪HF18000G5的 ASUCapacity的空间,写入超过20次以上,避免了性能的虚高。
第二,拓扑图。
从下图可以看出,浪潮高端存储采用32个控制器,每个控制器部署10个16Gb FC前端端口,15个1.92TB NVMe SSD和3个375GBOptane SSD。
HF18000G5通过两台Inspur FS9620光纤交换机连接到62台服务器(Inspur NF5280M5)。
第三,成本。
此次浪潮存储的测试配置还包含了浪潮光纤导向器FS9620。在报告中,我们可以看到“Storage Configuration Pricing”一栏中,总价格包含了FS9620的价格,如下表:
光纤导向器FS9610测试配置
然而,我们看到SPC-1网站中,有些厂商,没有光纤交换连接的部件,如交换机FC Switch,或者导向器FC Direct的配置和报价。可能使用的是直连方式,因此拉低了系统的总体价格。但用户需要清楚的是,实际部署这种高性能低延迟的中高端存储,光纤交换连接的部件是不可或缺的。
每个送测的厂商,都必须在报告的“Storage ConfigurationPricing”部分,给出详细的组件、数量、价格和整个送测系统的总价。这样才能确保是性价比,而非仅仅是最高峰性能的比较,这样对最终用户更有参考价值。
第四,稳定性。
在第一部分“剖析SPC-1测试要素”中已经提到:SPC-1 IOPS 结果在5%以内浮动,多数送测厂商会努力将延迟做到1毫秒以内。
浪潮高端全闪HF18000G5在8个小时的长稳测试中表现出色(详见FDR中SUSTAIN – Response Time Graph图表),非常平稳,近乎一条直线。如下图,即使是在纵坐标轴非常狭窄的区域(0到0.6毫秒)的呈现中,波动幅度很小。
浪潮HF18000G5长稳测试稳定性表现优异
SPC-1性能榜单中某TOP 4的其他厂商在8个小时的长稳测试中表现抖动。如下图,测试开始20分钟左右,突然陡增到约1.65毫秒,正因如此其FDR报告SUSTAIN– Response Time Graph图表的纵坐标轴的区域不得不放宽到0到1.8毫秒。
第五,延时。
高IOPS、高并发,对存储系统的延时是巨大的挑战。可以看出即使在2300多万这么高的IOPS下,浪潮高端全闪HF18000G5延时仅0.294毫秒。总体响应时间为0.246毫秒。这一成绩比2020年3月,浪潮存储AS5600G2全闪存的752万IOPS、0.472毫秒延,有所改善。
小结:报告对比
通过比较才能看出更多信息。我们选取SPC-1中,最近三年内,也即从2018年到2021年,并且性能超过1000万IOPS的存储,我们发现仅剩下4个型号,包括浪潮存储、富士通等,浪潮高端全闪HF18000G5在总IOPS、平均延时、总体响应时间、性能性价比(SPC-1 Price Performance)、单控IOPS、单盘IOPS等方面均排名第一。
SPC-1 TOP 4 性能横向对比
编辑:jq
全部0条评论
快来发表一下你的评论吧 !