平头哥发布首颗PCle5.0 SSD主控芯片镇岳510!4μs超低时、误码率领先行业标杆一个数量级!

描述

11月1日,在2023云栖大会上,阿里巴巴平头哥发布旗下首颗为云计算场景深度定制的SSD主控芯片镇岳510,正式进军企业级SSD市场!

平头哥这颗SSD芯片

从性能看,可以支持3400K IOPS的能力,在业界属于第一梯队。一枚镇岳510的性能,相当于1万块高性能HDD的性能总和。

从能效比来说,每瓦功耗可提供420K IOPS的性能,是业界领先水平。

从时延角度看,实现了业界领先的超低的时延(4μs),比业界SSD降低30%以上。

从可靠性来说,误码率低至10^-18的UBER,相当于每读取百亿亿笔数据,才可能有一笔数据纠错失败,比业内标杆领先一个数量级。

从第一款当时全球性能最强的AI专用芯片含光800,到高性能RISC-V架构处理器玄铁910,再到首款CPU芯片倚天710,平头哥在给自家产品的取名上,就偏爱用中国上古和武侠中的“神兵利剑”来命名。而这次的镇岳510,更是玄铁所铸的高性能、高可靠、高能效及低延时的镇岳利剑!

阿里盘古遇上镇岳,必将所向披靡!平头哥SSD产品负责人周冠锋透露说,镇岳510马上就要进入量产阶段,将率先在阿里云数据中心部署。这颗取名镇岳510的芯片,定位于高端大端口企业级SSD,可应用于AI、在线分析、在线交易、大数据分析、高性能数据库等云上应用场景。

SSD

01

首颗SSD芯片是如何炼成的

为什么这个时间点推出?

算力、网力、存力,共同构筑了云计算的基础。在云服务和AI计算需求逐渐旺盛的背景下,芯片的布局不仅关系着云厂商的成本,更是企业生态发展的重要一步。

SSD

为了满足云上业务的迅猛发展,网络正从25GE、100GE、200GE快速演进,并将进入400GE、800GE时代。而以SSD为代表的存力,同样面临着新的挑战和诉求。

SSD是计算机系统的核心存储部件,涵盖闪存芯片(数据的最终存储地)、内存芯片(用于暂存SSD内的众多管理表项、数据缓存)以及SSD主控芯片。SSD主控芯片是SSD的大脑,负责主机交互、协议解析与执行、数据读写、数据纠错、数据管理、后台任务、带外管理等。可以说,SSD的功能、性能与可靠性均由其实现。

SSD每隔三四年会进行一次产品迭代演进。之前会从PCle3.0、 PCle4.0到今天,2023年是SSD从PCle4.0到PCle5.0的一个演进节点。

周冠锋表示:“因此,平头哥就提前规划了这颗PCle5.0的SSD芯片来应对市场上的这个趋势。”

镇岳510,是一颗怎样的芯片?

镇岳510采用平头哥自研的芯片架构,内置高性能的玄铁910 RISC-V多核CPU,采用平头哥自研紧耦合芯片架构,对SSD任务进行高度抽象,可固化任务硬化为加速算子以提升性能。FTL关键任务则运行于玄铁910CPU以保持灵活性。

SSD

整个资源架构里面大量的采用了硬件加速模块,可以实现非常高的性能,实现了很高的能效比。因为独创设计了创新的前端IO硬件自动处理机制,由专用硬件模块自动完成,实现了业界领先的超低的时延(4μs),比业界SSD降低30%以上。不仅如此,镇岳510芯片内实现了IO/SYS/GC的全链路隔离,极大的降低这些任务之间的相互干扰,提供了既低又稳定的时延表现。

此外,镇岳510内置平头哥自研的高性能LDPC纠错算法,编码效率逼近香农极限,同时ErrorFlow相比业内SSD更优一个数量级;同时借助平头哥自研闪存电压预测算法,可以在各种闪存的不同工况、寿命、温度等条件下,准确预测闪存电压漂移,进一步降低LDPC解码器的输入误码率。其实现了低至10^-18的UBER,相当于每读取百亿亿笔数据,才可能有一笔数据纠错失败。

绿色、减碳是云数据中心的一贯追求。以更低的功耗,提供更高的性能,是SSD的重要挑战。镇岳510每秒可处理高达340万笔IO,一枚镇岳510的性能,相当于1万块高性能HDD的性能总和。

此外镇岳510拥有极高的能效比,每瓦功耗可提供42万笔IO访问。以一个部署了10万块SSD的数据中心为例,相比目前主流的PCIe 4.0SSD,镇岳510在相同的性能下,仅主控芯片即每年节省260万度电,按照一度电排放0.785千克二氧化碳计算,每年可减少二氧化碳排放2千吨。

平衡灵活性和高效能的关键:软硬件协同发展

SSD主控芯片其实也是一种SOC, 它内部既有硬件模块,也有CPU核。事实上,SSD主控芯片并不是一种标准化的设计,每一家公司的设计方案都不太相同。业界SSD主控芯片的架构设计有两大趋势,一种类似纯SOC, 即由软件主打的设计方案;另一类是软硬件结合的设计方案。

镇岳510属于后者。

周冠锋介绍说,镇岳510自2021年上半年立项后,耗费了非常长的时间去反复论证芯片的架构设计。芯片设计其实是一个权衡的过程,如果把过多的功能卸载,使用硬件加速来实现的话,那么这颗芯片的灵活性就会比较差。但如果把过多的功能交由CPU软件来使用的话,它的灵活性同样会比较差。如果既能通过硬件加速获得高效的同时,仍能保留使用CPU来运行一些关键的软件任务,这样获得的灵活性将会大大提高。

镇岳510采用的是平头哥自研的芯片架构。这颗芯片支持PCle5.0的主机接口,支持DDR5.0的内存接口,内置了高性能的RISC-V CPU。此外,整个资源架构里面采用了比较独特的硬件加速模块,在应用中进行大量的卸载加速,能实现高性能与低能耗。

所以镇岳510可以实现非常高的性能。大批量的硬件加速模块的使用,极大的提高了产品的能效比,达到每瓦420k IOPS性能。除此之外,镇岳510还实现了非常低的访问时延。这也是因为平头哥独创的设计了前端IO的硬件自动处理机制。

在EETOP特别针对RISC-V的提问中,周冠锋最后总结说到:“RISC-V这颗CPU和它的指令集都非常精简,运行效率也很高,同时它还是开源的,所以平头哥SSD芯片的设计团队最终选择了我们认为一个最平均、最平衡的一个设计方案。”

02

镇岳510,为云做了哪些定制

首先,在传统的系统方案中,SSD与存储系统分离设计。SSD负责底层闪存数据排布,但由于没有存储语义而无法达到最佳排布;SSD负责后台任务,但无法判断最佳启停时机;而存储系统有存储语义却无法排布闪存数据,有最佳时机却无法启停SSD后台任务。上下的割裂给整个存储系统的性能与寿命带来了额外消耗,这被称为“SSD接口税”。

解决办法就是ZNS。它是一种标准的协议接口,2021年5月被收入NVMe2.0协议中,并得到了SPDK、Linux以及各设备商的支持。ZNS通过将盘内FTL层上移至存储系统,达到了存储系统与闪存特性的完美匹配,消减了“SSD接口税”。

SSD

镇岳510完美实现了ZNS协议,通过灵活的硬件表项加速保持了高IO性能,而Zone分区状态则交由玄铁910CPU维护,保留了对新协议的灵活性。此外,镇岳510定制了Last Sector 随机写功能,实现了小报文的多次反复下盘,简化了ZNS的应用难度。

其次,数据请求可以分为带宽敏感型与时延敏感型,不同的请求应予以不同的处理策略,才能达到业务最佳SLA。NVMe规范中制定了以队列为粒度的标准SQ调度机制,但其灵活性较差,对于业务种类复杂、追求灵活可配的云存储系统来说,它并不是最佳选择。

镇岳510在支持NVMe标准的SQ调度机制的同时,额外定制了基于IO粒度的优先级调度机制,允许系统按IO打标,优先级种类多达8级,结合云存储系统,能够更好的保障延迟敏感型业务的服务质量。

此外,云存储系统的完整数据链路,从计算端开始,通过网络到存储服务器,再通过内部互联到达SSD。为了保障数据的高可靠,全链路应采用语义一致的完整性校验。但NVMe规范只规定了以Sector为单位按照T10 DIF/DIX的校验机制,与存储系统的语义并不相同,因此SSD的校验与存储系统的校验产生了差异。

镇岳510以IO为粒度,遵循上层存储语义进行校验,补齐了整个存储系统的数据链路校验的最后一环。不仅如此,镇岳510还支持以存储语义对内部数据进行后台巡检,而无需再读出至服务器,节省了宝贵的PCIe带宽、服务器内存带宽与CPU算力。

SSD

周冠锋介绍说,因为云厂商,尤其是阿里云拥有全栈的软件的核心技术。所以在这种情况下,平头哥有机会通过阿里云与软件栈和底层芯片之间做配合,来实现更好的特性,更好的实现云上应用性能的提升。并且,随着云技术进入深水区,云开始与底层芯片全方位融合联合设计,可提供更好的用户体验。

不过,镇岳510的生命力肯定不仅仅在阿里云上止步。镇岳510其实是为云上应用做优化的,它不仅仅可以适用于阿里云。因其具备的更强存力、更高可靠等特点,可通过为云定制,带来更优秀的存储体验。

周冠锋表示:“其实在外部的不同的云环境下都是适用的。只是,镇岳510会首先在阿里云上上线使用!”

03

结束语

平头哥的业务重心是在数据中心领域的芯片开发。数据中心领域的芯片,一类是纯计算类芯片,一类是存储类芯片。此前平头哥推出过多款性能强劲的芯片,如含光800 AI专用推理芯片、倚天710首款通用CPU芯片等。但它们都属于算力芯片,而这一次平头哥实现对自己的突破,设计出自己的第一颗企业级SSD芯片,补齐其在存储领域的空白。相信对平头哥来说,是一次里程碑式的突破。

忆平头哥初创的决心:要为国内的芯片行业贡献出自己的一份力量。自2019年成立以来,短短几年时间,平头哥一次又一次为***交上力满意的佳作,刷新业界对平头哥的认知,更刷新大家对中国芯片企业实力的认知!

平头哥已经掌握了SSD主控芯片设计的全部技术。一颗芯片要想有更强的生命力,就需要对它的应用场景有深入的理解,才能更好的用在用户场景下。平头哥对阿里巴巴的业务,尤其是阿里云业务有更深刻的理解。平头哥跟阿里云联合定制,使得这颗芯片在云上应用的时候,可以让整个存储系统的性能、能效和服务质量更好。

对于平头哥在SSD领域未来的发展,周冠锋表示:“我们还将继续沿着高端企业级这条路线进行演进,不过不会拓展到消费级和车规工规级。”

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分