摘要:
DNA甲基化实质上是对基因组碱基的化学修饰,属于表观遗传修饰的范畴。这种主要发生在基因组CpG岛上的修饰具有多种生物学功能。例如调控基因的表达、基因沉默、保持基因组对外界环境的稳定性。目前研究表明,DNA的甲基化有多种疾病相关,异常的甲基化可以导致肿瘤的发生。鉴于甲基化的重大生物学意义,人类表观基因组协会于2003年正式宣布开始投资和实施人类表观基因组计划(Human Epigenome Project,HEP),目的是为确认、分类和解释人类主要组织中所有基因在基因组水平的DNA甲基化模式。2009年,首张人类表观遗传学基因组图谱绘制成功,包括RNA转录信息,组蛋白修饰信息等内容。
伴随着测序技术的不断发展,人们得到的甲基化的数据也越来越多。采用何种途径获得甲基化数据,以及面对这些大量的数据生物信息学学家该如何去分析成为该领域当前急需解决的问题。
目前,有多种获得基因组甲基化数据的方法,这些方法大都对甲基化和未甲基化的特征进行对比,进而来鉴定甲基化位点。例如甲基化敏感性限制性内切酶方法是利用该酶对甲基化区的不切割的特性,将DNA消化为不同大小的片段后再进行分析。免疫共沉淀利用可以结合甲基化区域的抗体与测序等技术相结合鉴定甲基化区域。目前比较常用的是用亚硫酸盐处理的方法,该方法使DNA中未发生甲基化的胞嘧啶脱氨基转变成尿嘧啶,而甲基化的胞嘧啶保持不变,然后进行PCR扩增所需片段,则尿嘧啶全部转化成胸腺嘧啶。最后,对PCR产物进行测序,并且与未经处理的序列比较,判断是否CpG位点发生甲基化。该方法是目前能够获得单个CpG位点甲基化的唯一方法,其他两种方法只能鉴定甲基化的区域。
利用亚硫酸盐测序法获得的甲基化数据接下来如何去分析是生物信息学家们需要解决的问题。首先将Michael Q. Zhang等人发明的RMAPBS算法应用到对亚硫酸盐处理得到的片段的分析。由于存在测序错误、亚硫酸盐不完全处理等会产生很大的噪音,所以接下来要运用复杂的统计学模型来准确鉴定甲基化的状态。为了进一步得到甲基化的生物学意义,需要分析导致不同区域甲基化不同的因素有哪些,这需要准确的计算方法去鉴定那些在两个数据集中甲基化不同的区域。另外,由于样本存在异质性,例如肿瘤组织由不同类型的细胞构成,这位甲基化的分析带来了进一步的难度,用合适的计算方法去分析由不同细胞类型组成的异质样本为甲基化的准确鉴定提供了有效手段。将甲基化这一表观遗传学信息整合到调控网络构建中,可以对生物体内调控的复杂分子机制有更深一步的理解。最后,同对物种进化树的研究类似,对细胞发育树的研究同样吸引了众多计算生物学家的眼球。甲基化在细胞发育树中所扮演的角色成为研究干细胞分化,肿瘤克隆进化模型的有力武器。以上这些利用计算生物学的方法对甲基化数据的分析为揭示甲基化真实的生物学意义提供了重要的途径。