浪潮分布式存储AS13000搭建血液病检测平台

描述

因分析、基因诊断、白血病分型、指导治疗、判断预后等领域已经有了成熟应用,而其中血液学已成为了此类现代生命科学技术发展最为活跃的领域之一。

通过加强技术创新,中国血液学研究在基础理论研究以及临床转化和实践等方面已跻身世界前列。基因测序作为一种新型的基因检测技术,在生命科学研究中扮演着十分重要的角色,随着测序技术的飞速发展,人类发现的基因序列数目以指数级增长,对于如此数量庞大的基因进行同源性搜寻、比对、遗传发育分析等等,往往伴随着巨大的数据处理量和并行计算量。

江苏省血液研究所(以下简称血研所) 采用浪潮分布式存储AS13000搭建了血液病检测平台,支撑了前端的基因检测业务,并依靠方案的高可靠、高可用、易扩容等特点,保障血研所业务高效运行并满足后续业务持续增长需求。

血研所主要研究方向为血栓与止血、恶性血液病和造血干细胞移植,本次搭建的科研平台主攻血液病的基因检测场景,基因测序是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性,过程中将会产生大量的数据,对存储系统带来了较大规模的挑战。

血研所也是国内第一个血栓与止血研究室,需要对大量的样品进行数据的采集、分析和计算,且对数据的持续读取性能、安全性要求很高,随着血液检测的技术创新与精确度的提升,预计未来每年的数据增长量在100TB左右。

浪潮分布式存储支撑血液病检测平台

结合检测平台数据特点及需求,血研所采用了浪潮分布式存储AS13000系列,在基因测序过程中满足了海量空间、高IO并发性能、业务连续性等需求,高效支持了血研所临床与多课题组同时在线使用的业务。

面对基因测序业务增长的性能和容量需求,浪潮分布式存储AS13000通过文件方面的智能条带化(Stripe)技术,单个文件跨节点分布,提高前端计算节点对数据并发访问性能。若后续规模的不断增长,业务负载压力变大,AS13000支持通过整合SSD资源作为高速数据缓冲区,可进一步提升系统IO性能;平台一期建设配置300余TB可用空间,满足血研所未来2年的数据增长需求,随着血研所科研数据量的增加,可通过节点在线横向扩展的模式,系统容量和性能呈线性增长,总容量可达EB级,可满足基因测序数据每年100TB的增长量。

整个基因测序的业务是在高压力下7*24运行,一旦出现业务中断整个基因测序的工程就要中断,甚至于整个的基因测序要重新进行。因此,连续性就是基因测序的根本生产力保证,因此对文件系统存储的业务连续性保证有极高的要求。

分布式存储在设计方面保证所有的关键系统服务都分布在多个硬件上,避免系统资源单点故障,消除系统瓶颈;纠删码策略在保障最大可达94%空间利用率时,允许集群内同时故障2个节点,数据不丢失,保障基因测序的业务连续。

江苏省血液研究所血液病生物样本库经过发展,建成包括生物样本库、临床数据库和质量控制实验室三个部门的血液病生物资源库,涵盖样本及信息收集、储存、利用全环节的生物资源管理体系。截至目前,共收集了103910例各类血液疾病患者的样本共计578331份,样本类型涵盖冻存细胞、骨髓组织、骨髓细胞玻片、血浆、血清、DNA和RNA等,出库样本量达59522份;临床数据库建立造血干细胞移植患者档案3000余例。

血液病生物资源库现为国内规模较大的血液疾病生物资源库之一,建立了国内最大的造血干细胞移植、骨髓增生异常综合征和急性混合细胞白血病的生物样本研究队列,为血液病基础和临床研究提供高质量的样本和数据支持。

江苏省血液研究所将继续坚持科研与临床相结合的理念,协力发展、不断创新,建设成为具有国际一流水平的血液病临床诊疗和转化研究中心,为血液学领域做出新的贡献。  

      审核编辑:彭静
打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分