你去将你的基因组测序了吗?面临挑战的基因组数据压缩技术

描述

你去将你的基因组测序了吗?世界上已有数百万人去测过了,到2025年,这一数字可能会达到10亿。

研究人员获得的基因组数据越多,个人和公共健康的前景就越好。产前DNA测序已经可以筛查出发育异常。过不了多久,患者将可以对他们的血液进行测序,以发现任何可能标志着某种传染病的非人类DNA。未来,与癌症打交道的人将能够通过每天对来自多个组织的细胞的DNA和RNA进行测序来跟踪疾病的变化情况。

整个人群的DNA测序将使得我们可以对整个社会的健康状况有更全面的了解。英国Biobank雄心勃勃,其目标是对50万名志愿者的基因组进行测序,并跟踪研究数十年。目前,人群范围的基因组研究通常被用来识别与特定疾病相关的突变。定期对空气、土壤和水中的生物进行测序将有助于追踪流行病、食物病原体、毒素等等。

这样的愿景的实现有赖于对超大量的数据的存储和分析。通常情况下,DNA测序仪处理一个人的整个基因组就会产生数十至数百千兆字节的数据。数百万人的基因组数据累加起来,所需要的存储空间将达到数十艾字节。

而这仅仅是个开始。发现基因组数据有用的科学家、医生和其他人不会仅对每个人进行一次测序——对于同一个个体,他们会希望随着时间的推移对多个组织中的多个细胞进行重复测序。随着测序速度的提高和成本的下降(现在个人基因组测序只需1000美元,而且价格正在快速下降),他们还希望对其他动物、植物、微生物和整个生态系统的DNA进行测序。而新应用甚至新产业的出现将带来更多测序。

虽然很难预测基因组数据的全部未来收益,但我们已经看到了一个不可避免的挑战:所需要的存储空间几乎是难以想象的大。目前,存储基因组数据的费用仍然只是实验室总体预算的一小部分。但是这种费用正在急剧升高,幅度远远超过了存储硬件价格的下降。在未来五年内,存储数十亿人、动物、植物和微生物的基因组的成本将轻松达到每年数十亿美元。这些数据需要保存几十年,甚至更长时间。

将数据压缩显然有助于解决其存储问题。生物信息学专家已经使用像gzip这样的标准压缩工具将文件大小缩小到了原来的1/20。一些研究人员还使用针对基因组数据的更专业的压缩工具,但这些工具并没有被广泛采用。我们两个人都在研究数据压缩算法,我们认为现在是时候提出一种效率更高、速度更快、更适合基因组数据独特特性的新压缩方案了。正如专用的视频和音频压缩方案对于像YouTube和Netflix这样的流媒体服务至关重要一样,要从爆炸式增长的基因组数据中尽可能多地获益,专门针对基因组数据的高效压缩方案将是十分必要的。

图片来源:Stephens ZD, Lee SY,Faghri F, Campbell RH, Zhai C, Efron MJ, et al. 2015, PLoS Biol 13(7).

人类基因组测序的增长:自2001年人类基因组序列草图首次发表以来,测序的人类基因组数量和测序能力的增长速度都有了显著提高。2015年后的三条线代表三种可能的增长曲线。

在我们解释如何更好地压缩基因组数据之前,让我们仔细研究一下数据本身。“基因组”在这里指的是四种碱基核苷酸——腺嘌呤(adenine)、胞嘧啶(cytosine)、鸟嘌呤(guanine)和胸腺嘧啶(thymine)——的序列,它们分别由我们熟悉的DNA中的A、C、G、T四个字母表示。这些核苷酸出现在A-T和C-G碱基对组成的链中,人类基因组中的23对染色体都是由这两种碱基对构成的。大多数人类细胞中,这些染色体包含约60亿个核苷酸,包括编码基因、非编码元件(如染色体末端的端粒)、调节元件和线粒体DNA。Illumina、Oxford Nanopore Technologies和Pacific Biosciences等公司生产的DNA测序仪器,能够在数小时内从一个人的DNA样本中自动完成对其基因组的测序。

这些商业化的DNA测序仪不会产生整个基因组长度的ACGT字符串,而是产生大量子串或“读数”(reads)。这些读数会部分重叠,需要序列组装软件基于它们重建出完整的基因组。一般来说,当进行整个基因组测序时,每个基因组片段长度不超过100个读数。

根据所使用的测序技术,读数的长度可能从大约100到100,000个碱基对变化,读数的总数可能从数百万到数百亿不等。短读数可以发现单个碱基对突变,而较长的读数更适用于检测复杂的变异,如数千个碱基对的删除或插入。

DNA测序是一个嘈杂的过程,读数中包含错误是很常见的。因此,除了ACGT核苷酸字符串之外,每个读数包含一个质量分数,表明测序仪对每个DNA核苷酸测序结果的信任度。测序仪将它们的质量分数表示为错误概率的对数。它们使用的算法是专有的,但事后可以检查。如果质量得分为20(对应于1%的错误概率),用户可以确认在已知的DNA序列中约1%的碱基对是不正确的。使用这些文件的程序依赖质量分数来将测序错误和突变区分开来。真正的突变会比测序错误显示出更高的平均质量分数,也就是说其错误概率更低。

测序仪将字符串和质量分数以及一些其他元数据逐个读数地粘在一起,形成所谓的FASTQ文件。一个完整基因组的FASTQ文件通常包含数十到数百千兆字节。

这些文件也非常冗余,这源于任何两个人的基因组几乎完全相同这个事实。平均而言,两个人的基因组在每1,000个核苷酸中大约有一个核苷酸不同,通常这些基因差异是很有趣的。一些DNA测序针对特定的差异区域,例如,像23andMe这样的DNA基因分型应用程序只寻找特定的变异,而刑事调查中的DNA分析则去寻找特定标记重复次数的变异。

但是,如果你不知道有趣的东西在哪里(比如当你试图诊断一种未知基因来源的疾病时),你就需要对整个基因组进行测序,这就意味着你需要获取更大量的测序数据。

测序数据的重复也来自于为清除错误而多次读取基因组的相同部分。有时,一个样本中包含一个序列的多个变异,因此你想重复对其进行测序以捕获这些变异。比如说你正试图检测一个组织样本中的一些癌细胞或一个孕妇的血液中的胎儿DNA痕迹,这可能就意味着要对每个DNA碱基对多次测序(通常超过100次)以区分罕见变异与更常见变异,以及它们与测序错误的真正区别。

读数和参考基因组:一个DNA“读数”(顶部字符串)与人的参考基因组的一小部分(底部字符串)大致匹配。插入、删除和替换(由于DNA测序过程中的突变或噪声)导致不完美匹配。为了编码一个读数,我们可以声明其在参考基因组中的起始位置并描述所有变异。

现在,你应该更好地理解了为什么DNA测序会产生如此多的冗余数据。事实证明,这种冗余对于数据压缩是有利的。对于相同的基因组数据块,你可以只存储一个副本,而不是存储多个副本。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分