人工智能如何改变基因组学?

描述

AI 和加速计算正在为基因组测序流程开辟新的可能性。

 

 

 

全基因组测序领域的进步已经点燃了数字生物学的革命。

 

随着新一代高通量测序成本的下降,基因组学项目正在世界各地展开。

 

无论是对患有罕见疾病的危重病人进行测序,还是大规模人群的遗传学研究,全基因组测序正在成为临床工作流程和药物研发的重要一环。

 

但基因组测序只是第一步。基因组测序数据分析需要通过加速计算、数据科学和 AI 来读取和理解基因组。随着摩尔定律(集成电路中的晶体管数量每两年增加一倍)的终结,人们需要新的计算方法来降低数据分析的成本、提高读取的吞吐量和准确性并最终释放人类基因组的全部潜力。

 

生物信息学数据的爆发

 

一个人的全基因组测序会产生约 100GB 的原始数据。而在使用如深度学习和自然语言处理这类复杂的算法和应用对基因组进行测序后,这个数字会增加一倍以上。

 

伴随着人类基因组测序成本的不断降低,测序数据量呈现指数级增长。

 

据估计,全人类基因组存储的数据量将在 2025 年达到 40EB,这比存储人类从古至今说过的每一个字所需要的存储空间还高出 8 倍。

 

许多基因组分析流程正在竭力应对不断产生的大量原始数据。

 

加速基因组测序分析流程

 

测序分析十分复杂且需要耗费大量算力,并且还需要许多步骤来检测人类基因组中的遗传变异。

 

深度学习对于使用基于循环神经网络(RNN)和卷积神经网络(CNN)的模型在基因组仪器内进行碱基检测变得越来越重要。神经网络解读仪器产生的图像和信号数据并对人类基因组的 30 亿个核苷酸对进行推断。这在提高读取准确性的同时确保碱基检测更加实时,进一步加快了从样本到变异检测格式(VCF)再到最终报告的整个基因组分析流程。

 

在基因组二次分析中,比对技术运用参考基因组来协助重新拼接 DNA 片段测序后的基因组。

 

领先的比对算法 BWA-MEM 能够帮助研究人员迅速将 DNA 序列读取结果映射到参考基因组上。另一种用于 RNA-seq 数据的黄金标准比对算法 STAR 可通过准确、极速的比对来更好地理解基因表达。

 

动态规划算法 Smith-Waterman 也被广泛用于比对,在包含一个动态规划加速器的 NVIDIA H100 Tensor Core GPU 上,比对步骤加快了 35 倍。

 

发现遗传变异

 

测序项目最关键的阶段之一是变异检测,例如单核苷酸变化、小规模插删或复杂重排。研究人员将在这个阶段检测病人样本和参考基因组之间的差异。这有助于临床医生确定危重病人可能患有的遗传疾病,或帮助研究人员在整个人群中发现新的药物靶标。

 

经 GPU 优化和加速的检测工具,如博德研究所的 GATK(用于生殖系变异检测的基因组分析工具套件),可以加快分析速度。为了帮助研究人员排除 GATK 结果中的假阳结果,NVIDIA 与博德研究所联合推出了一款利用 CNN 过滤变异的深度学习工具 NVScoreVariants。

 

基于深度学习的变异检测工具,如谷歌的 DeepVariant,可在无需单独过滤步骤的情况下,提高检测的准确率。DeepVariant 使用 CNN 架构检测变异,通过各基因组平台输出结果的反复微调训练提高检测的准确性。

 

NVIDIA Clara Parabricks 工具套件中的二次分析软件将这些变异检测工具的速度提高了 80 倍。例如在基于 CPU 的环境中使用 GPU 加速的 Clara Parabricks 可以将 HaplotypeCaller 的运行时间从 16 小时减少到 5 分钟以内。

 

加速新一轮基因组学浪潮

 

通过为短读和长读测序平台提供加速的 AI 碱基检测和变异检测,NVIDIA 正在帮助推动下一波基因组学的发展浪潮。行业领导者和初创企业正在与 NVIDIA 一起助力全基因组测序领域的突破。

 

例如,生物技术公司 PacBio 最近发布了一款采用 NVIDIA Tensor Core GPU 的新型长读长测序系统——Revio。与之前的系统相比,Revio 的算力提高了 20 倍,旨在以低于 1000 美元的成本对人类基因组进行大规模的高精度长读测序。

 

牛津纳米孔科技有限公司提供了业内仅有的一个单一技术,能够对任何长度的 DNA 或 RNA 片段进行实时测序,使研究人员能够迅速发现更多遗传变异。西雅图儿童医院最近使用高通量纳米孔测序仪 PromethION 在新生儿出生后的几小时内检测遗传性疾病。

 

Ultima Genomics 正在提供每个样本只需 100 美元的高通量全基因组测序。Singular Genomics 的 G4 测序仪是目前最强大的台式测序系统。 

     

 

扫描海报二维码,或点击“阅读原文”,即可观看 NVIDIA 创始人兼首席执行官黄仁勋 GTC23 主题演讲重播!

 

 

 


原文标题:人工智能如何改变基因组学?

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分