Clara Parabricks v3.6加速GPU的应用

描述

NVIDIA Clara Parabricks v3.6 的发布为其强大的基因组分析工具套件带来了新的变体调用、注释、筛选和质量控制应用。现在,在基因组分析的每个阶段都有超过 33 个加速工具, NVIDIA Clara Parabricks 提供 GPU 加速的生物信息管道,可以扩展到任何工作负载。

由于基因组和外显子的测序速度比以往任何时候都快,必须对越来越多的原始仪器数据进行映射、对齐和解释,以破译变异及其对疾病的意义。生物信息管道需要跟上基因组分析工具的步伐。基于 CPU 的分析管道通常需要数周或数月的时间收集结果,而基于 GPU 的管道可以在 22 分钟内分析 30 倍全人类基因组,在 4 分钟内分析全人类外显子。

这些快速的周转时间对于跟上下一代测序( NGS )基因组仪器的输出是必要的。这对于大规模人口、癌症中心、 ph ARM 药物开发和基因组研究项目来说是必不可少的,因为这些项目需要出版物的快速结果。

NVIDIA Clara Parabricks v3.6 包含:

新 GPU – 加速变体调用者

一个易于使用的基于投票的 VCF 合并工具( VBVM )

数据库注释工具( VCFANNO )

通过等位基因频率快速过滤 VCF 的新工具( FrequencyFilter )

用于体细胞和种系管道的 VCF 质量控制工具( VCFQC 和 VCFQCbyBAM )。

服务器

图 1 :与 GPU – 加速 GPU Clara Clara 相比,基于开源 Parabricks 的体细胞变体调用工具的分析运行时。相对于社区版本, NVIDIA Clara Parabricks 使 LoFreq 加速 6 倍, SomaticSniper 加速 16 倍, Mutect2 加速 42 倍。这些基准测试是在 4x V100s 上设置的 SEQC-II 基准测试的 50 倍 WGS 匹配肿瘤正常数据上运行的。

加速 LoFreq 和其他躯体来电者

随着 LoFreq 与 Strelka2 、 Mutect2 和 SomaticSniper 一起加入, Clara Parabricks 现在包括 4 个癌症工作流程的躯体细胞呼叫者。 LoFreq 是一个快速而敏感的变量调用程序,用于从 NGS 数据推断 SNV 和 INDEL 。它可以自动适应覆盖率和测序质量的变化,并可应用于体细胞、病毒/准种、宏基因组和细菌数据集。

Clara Parabricks 中的 Lofreq 体细胞调用程序比其本地实例快 10 倍,非常适合调用低频突变。使用基本调用质量和 NGS 数据中固有的其他错误源, Lofreq 提高了调用低于 10% 等位基因频率阈值的体细胞突变的准确性。

在 v3 .6 中, 经过加速的 LoFreq 仅支持 SNV 调用,而 Indel 调用将在后续版本中提供。

服务器

图 2 :开源 DeepVariant (蓝色)和 GPU – 加速 NVIDIA Clara Parabricks (绿色)的运行时。 30 倍 Illumina 短读数据的运行时位于左侧; PacBio 35X 长读取数据的运行时位于右侧。 NVIDIA Clara Parabricks “ DeepVariant 比开源版本快 10-15 倍(蓝色的“ DeepVariant ”条与绿色的“ DeepVariant ”条相比)。

使用新的加速工具从数月到数小时

NVIDIA Clara Parabricks v3 。 6 还包括一个 bam2fastq 工具,添加了 smoove 变体调用程序,支持从头突变,以及用于 VCF 处理的新工具(例如注释、筛选和合并)。对 30 倍人类基因组的标准 WGS 分析在DGX A100上完成,耗时 22 分钟,比同一服务器上基于 CPU 的工作流快 80 多倍。通过这种加速,耗时数月的项目现在可以在数小时内完成。

Bam2Fastq 是 GATK Sam2fastq 的加速版本。它将 BAM 或 CRAM 文件转换为 FASTQ 。这对于需要将样本重新对齐到新引用,但删除原始 FASTQ 以节省存储空间的场景非常有用。现在,它们可以从 BAM 中重新生成,并比以前更快地与新引用对齐

在比较后代与其父母的序列数据时,检测生殖系基因组中发生的从头变异( DNV )(也称为三重分析)对于疾病相关变异的研究以及建立世代突变率的基线至关重要。

Parabricks Clara Clara v3.6 中包含了一个基于 GPU 的调用 DNV 的工作流,该工作流利用了谷歌的 DeepVariant ,它已经在 trio 分析和其他谱系测序项目中进行了测试。

对于结构变体调用, NVIDIA Clara Parabricks 已经包括 Manta ,现在添加了 smoove 。 Smoove 简化并加快了短读结构变体的调用和基因分型。它还通过去除指示低电平噪声的对准信号来提高特异性,并且常常导致虚假呼叫。

服务器

图 3 : GPU – NVIDIA Clara Parabricks v3.6 中的加速基因组学分析工具。

NVIDIA Clara Parabricks v3.6 还关注了变异调用后基因组管道的步骤。 BamBasedVCFQC 是一个 NVIDIA 生成的工具,通过使用原始 BAM 的 SamTools mPileUp 结果来帮助 QC VCF 输出。 Vcfanno 允许用户使用第三方数据源(如 dbSNP )注释 VCF 输出,向 VCF 添加等位基因频率。

FrequencyFiltering 允许根据包含等位基因频率和读取计数信息的数字字段过滤 VCF 中的变量。最后,基于投票的体细胞呼叫者合并( vbvm )用于合并两个或多个 VCF 文件,然后基于简单的基于投票的机制过滤变体,其中变体可以基于已识别特定变体的体细胞呼叫者的数量进行过滤。

关于作者

Vanessa Braunstein 在 NVIDIA 的医疗团队从事产品营销工作。此前,她在基因组学、医学成像、制药、化学和诊断公司从事产品开发和营销。她学习分子和细胞生物学、公共卫生和商业。

Gary Burnett 是 NVIDIA 的解决方案架构师,在媒体和娱乐领域的专业可视化团队中工作。 2017 年,他从麻省理工学院计算机科学和神经科学专业毕业后加入 NVIDIA 。 Gary 的角色包括直接与客户合作,以创建利用深度学习实现视觉效果的应用程序,包括图像处理、角色移动和姿势估计。

审核编辑:郭婷

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分