全基因组表观遗传修饰分析

梁守丹

摘要: 本文是一篇关于表观遗传分析的综述。表观遗传（epigenetics）是指DNA序列不发生变化，但基因表达却发生了可遗传的改变。这些改变包括DNA的修饰(如甲基化)、组蛋白的各种修饰等。
DNA甲基化能抑制邻近基因的表达。在真核生物中，大多数的5'-gc-3'片段（又称CpG二核苷酸）都被甲基化。甲基化的胞嘧啶会自发脱氨变成腺嘧啶，使CG突变成TG，进而造成CG的减少。CpG岛是一段超过200bp的区域，其中GC所占比例超过50%，且CpG的观察值／预测值比例必须高于0.6。CpG岛内的甲基化较少但比组蛋白修饰更稳定。
组蛋白修饰是另一种重要的表观遗传修饰。组蛋白是染色体基本结构-核小体中的重要组成部分，其N-末端氨基酸残基可发生乙酰化、甲基化、磷酸化、泛素化、多聚ADP糖基化等多种共价修饰作用。组蛋白的修饰可通过影响组蛋白与DNA双链的亲和性,从而改变染色质的疏松或凝集状态,或通过影响其它转录因子与结构基因启动子的亲和性来发挥基因调控作用。不同的组蛋白修饰会带来不同的生物学效应。
检测组蛋白修饰的最重要的方法是染色质免疫沉淀分析（ChiP）。染色质免疫沉淀分析是基于体内分析发展起来的方法，它的基本原理是在活细胞状态下固定蛋白质－DNA复合物，并将其随机切断为一定长度范围内的染色质小片段，然后通过免疫学方法沉淀此复合体，特异性地富集目的蛋白结合的DNA片段，通过对目的片断的纯化与检测，从而获得蛋白质与DNA相互作用的信息。目的片断可以通过tiling array或高通量测序的方法来检测，前者称为ChIP-on-chip而后者称为ChIP-Seq。
检测DNA甲基化最重要的方法是亚硫酸氢盐修饰后测序法（bisulfite conversion followed by pyrosequencing）。DNA 经亚硫酸氢钠处理，非甲基化的胞嘧啶转变为尿嘧啶，而甲基化的胞嘧啶保持不变。在PCR 反应时，设计两套不同的引物对：一对引物序列针对经亚硫酸氢钠处理后的甲基化DNA 链设计，若用该对引物能扩增出片段，说明该检测位点发生了甲基化；另一引物针对经亚硫酸氢钠处理后的非甲基化DNA 链设计，若用该对引物能扩增出片段，说明该检测位点没有甲基化。
新的统计算法和与之配套的软件对于准确地分析实验数据，并转化为有意义的医学应用至关重要。使用ChIP-chip和ChIP-Seq数据的一个基本问题就是峰的鉴定。峰即reads相对富集的区域往往就是目标蛋白作用的序列。文章作者介绍了现有峰鉴定算法对背景分布的假设。
最后，本文介绍了几个值得研究的例子：启动子和增强子的发现，贝叶斯网推断组蛋白修饰和基因表达之间的关系，组蛋白修饰遗传的稳定性，CpG island shore (CpG岛外的差异甲基化区域)，干细胞和癌症组织中甲基化的状况。

Abstract: In plants and animals, gene expression can be altered by changes that do not alter the sequence of nucleotides in DNA but rather modify the chemical structure of either the DNA or the histones that interact with the DNA. These so-called epigenetic modifications are not transient, but persist through cell divisions. Rapidly advancing technologies, such as next-generation DNA sequencing, have dramatically increased our ability to survey epigenetic markers throughout an entire genome. These techniques are revealing in great detail that the many forms and stages of cancer are characterized by a massive number of epigenetic changes. Interpreting such epigenetic marks in cell differentiation and in carcinogenesis is computationally challenging. We review several examples of epigenetic data analysis and discuss the need for computational methods that will enable us to learn from the data the relationships between different kinds of histone modifications and DNA methylation.

全基因组表观遗传修饰分析

Genome-Wide Analysis of Epigenetic Modifications