摘要:
新一代测序系统提高了一种新的分子生物学研究手段。 新一代测序的应用将给医疗卫生带来深刻的变化,使提供个性化医疗成为可能。不为人注意的是由此带来的对计算,包括CPU和储存,以及新的计算方法的爆炸性需求。在本文中,我们将简要回顾在计算方法领域所取得的一些成果以及新的需求。
当前技术方法
虽然商业新一代平台在获得序列的方法各不相同,但是它们有共同的优势是不需要细菌的克隆库。在许多方面,消除克隆库的构建和处理是基因组测序成本大幅下降,并平台的吞吐量大大提高的重要原因。下一代平台通过微乳液或者桥式PCR扩增技术直接从个人的DNA基因组分子构建“克隆库”。目前,有可供选择的四种商用系统,每个提供强大的技术支持但是需要考虑整体的费用和应用:1) Illumina Genome Analyzer,2) Life Technologies SOLiD System,3) Roche 454 GS FLX,and 4) Helicos’ Heliscope Sequencer。各种平台基本都采用合成测序全(SBS)的方法,即使用标记的核苷酸实时检测聚合酶的合成过程。除此之外,三代测序平台也在开发当中,如Pacific BioSciences (PacBio)和Life Technologies。其特点是单分子模板、实时无周期检测、消除了模板扩增步骤,检测合成过程中每个增加核苷酸的瞬态。而四代测序,即纳米孔测序(Nanopore Sequencing)是DNA测序最简单的方法,但是却是最难实现的。一个DNA单链通过一个小孔(~1-2nm),测量每一个碱基,获得它通过小孔之后它阻挡了多少电流。嘌呤(A,G)比嘧啶(C,T)体积大,阻挡更多的电流。纳米孔测序的优势是DNA样本可以立即分析而不需要标记或其他的准备工作。
计算新一代测序拼接
测序得到小片段,需要经过拼接才能恢复原始DNA序列。传统的sanger方法得到的序列片断一般采用Roger Staden和Gingeras等人提出的贪心方法,把overlap最长的两个片段连起来形成更长的片段。这个贪心算法的简单表述是:给定一个小片段的集合,包含每一个小片段的最短长度的超串是什么?理论证明显示贪心算法所找出的解最差不超过最优值的4倍,实际中可能达到2倍。 但是贪心是一个很弱的算法,在人类基因组中,有很多重复的基因片段,用贪心算法得到的结果不能信服。
这种序列拼接算法包括三个步骤:overlap-layout-consensus。overlap需要考虑任意两个小片段在在当前方向上或另外的方向上是否有重复。layout需要确定小片段相互一致的序列重复,和大致确定它们在基因组上的位置顺序。consensus,从方向一致的小片段中给出一个大致的多序列联配,并最终得到一条一致序列(consensus sequence)。
与sanger测序不同,二代测序技术得到的片断要短得多,也要多很多,用overlap-layout-consensus 的方法将很难拼接。一个替代的方法就是Idury与Waterman(1995)提出的欧拉图方法。其基本思想是把一个序列编码成一个图。给定一个k值,得到n-k+1个k长的片段。序列图的每个顶点是不同的k-1长片段,每条边是相应的k片段。如果把k长片段看作图中的每一个点,那么片断拼接就变成一个NP-hard的Hamiltonian路径的问题。但是欧拉图方法的存储开销很大,没有基本的计算方法的突破(包括存储技术)很难在测序方法上有几个数量级的改进。
前景
第二代和第三代测序系统需要一定数量和质量的测序数据。期望在2年之后,使用第二代和第三代测序系统产生的数据,使用新的算法回贴形成参考基因组。
当经济上可行的时候,将可以分析切片组织细微的基因变异。这些很少发生的基因变异来自于基因固有的不稳定性,并可能发展成为癌症。目前这样的计算量超过了我们的能力。如果能将多个细胞的DNA合并测序,就可以覆盖多个细胞基因组也可能包括变异的基因。由此产生更大的计算量,更有意义的是研究发现基因变异的计算方法。