生物大分子的横向进化在蛋白功能域的注释、分类以及识别中的应用

生物大分子的横向进化在蛋白功能域的注释、分类以及识别中的应用

Understanding the "Horizontal Dimension'' of Molecular Evolution to Annotate, Classify, and Discover Proteins with Functional Domains

摘要

摘要: 蛋白质的进化过程主要包括个体蛋白的突变选择和内部功能域的重组两种途径。当前，蛋白质功能的预测大多依赖于序列对比，而如何将蛋白内部功能域的重组应用到该领域是目前需要解决的问题。而且，众多的研究结果将功能域视为进化过程的基石，故应用以功能域为基础的计算生物学手段去重塑进化过程为该领域开辟了新的途径。本文基于功能域分析和发现过程中所利用的计算资源和工具，主要从以下几个方面进行阐述：一、介绍基于功能域的计算生物学所涉及的基本数据库——EBI的Interpro计划；二、讨论从头预测功能域的方法以及存在的挑战；三、举例阐明基于功能域的方法比基于整个蛋白序列的方法更加有效；四、介绍一个基于功能域的蛋白分析工具——MotifNetwork的工作流程；五、探讨如何利用功能域推断不同物种间的同源性以及同种物种中蛋白功能的相似性；六、综述了功能域—功能域和蛋白—蛋白相互作用的关系以及探讨基于功能域的方法推断蛋白—蛋白相互作用的过程；最后作者展望未来，提出基于功能域方法发现新基因或蛋白，以及相互作用网络过程中所要面临的挑战。
Interpro蛋白功能域数据库（http://www.ebi.ac.uk/interpro/）。Interpro数据库主要以功能域信息为中心，包括功能域特征以及所在蛋白的序列信息和其他功能注释信息。其中，蛋白功能域信息整合了11个数据库，并分别采用不同的方法来识别功能域。Interpro整合了每个蛋白应用不同方法所识别的功能域信息，并将每个相同的功能域用同一InterPro记录（IPR）表示。每个IPR记录代表一个特定的功能域，除了给出功能信息以外，还包括其他数据库的链接，如GO数据库、UniProtKB数据库以及GenePep数据库。InterProScan为其搜索工具，给定任何蛋白序列，就可以从InterPro数据库搜索该蛋白的蛋白功能域信息，如果InterPro不包含该蛋白，则它会利用BLAST搜索与目标蛋白序列相似的蛋白，给出对应的功能域信息。此外，一些序列模序识别工具如MEME/MAST可以从头发现新的功能域。
从头发现序列模序和功能域。一些早期的功能域数据库如PROSITE，PRINTS-S，Pfam，SMART和TIGRFAMs，通常通过多重序列比对得到保守的功能域。生物学家可以利用功能域挖掘工具如MEME，在训练序列集合中寻找共同的且尚未人知的序列模序。MEME得到的结果很大程度上依赖训练序列的选择。训练序列可以是多个不同物种的同源蛋白序列，但是同个物种的旁系同源蛋白序列则不是一个好的选择，因为即使序列足够的相似，他们仍然可以有不同的功能。此外，训练集合中涉及到的多个物种的进化距离的选取也是一个关键问题。关于蛋白序列模序的识别存在两个挑战：有空格序列模序以及有重叠区域序列模序的识别。其中一个识别有空格序列模序的工具是GLAM2以及对应的功能域搜索工具GLAM2SCAN。但是无论MEME还是GLAM2都不能识别有重叠的序列模序。
举例说明基于功能域发现新蛋白的方法。假设病原微生物能模拟宿主蛋白的功能域而发挥作用。以MYD88基因为例，用BLAST工具将MYD88蛋白序列比对整个微生物的非冗余蛋白数据库，相似性较高的21个蛋白没有1个来自人源性病原微生物。然而，如果搜索与MYD88一致的功能域，则有多于600个原核生物蛋白拥有与MYD88一样的功能域——Interleukin-Toll receptor功能域，而这些蛋白大部分来自人源性病原微生物，由此可见，基于功能域的方法更接近于原始假设，引导后续的实验。
基于功能域方法的蛋白序列注释。MotifNetwork是一个高通量利用InterProScan使蛋白的氨基酸序列转变为功能域。给定一条或多条蛋白序列，MotifNetwork将给出这些蛋白对应的功能域以及跨膜结构域的信息，组成一个稀疏的分数矩阵，横坐标是蛋白ID，纵坐标是功能域ID，然后得到统计学上显著的蛋白以及对应的功能域，从而为这些蛋白完成功能域的注释。
基于功能域的方法推断不同物种间同源的和同种物种中功能相同的蛋白。目前，已存在大量的预测同源蛋白的工具，包括基于树的方法（如COCO-CL），基于图的方法（如COG），以及两者混合的方法（如OMA）。而基于功能域的方法实现过程如下：在MotifNetwork输出的蛋白功能域矩阵中，将蛋白按功能域的相似度进行分类，然后将同组的蛋白序列进行两两比对，利用比对的分值进行聚类，从而得到直系/旁系同源蛋白的关系。
蛋白—蛋白和功能域—功能域相互作用的关系。通常蛋白之间的相互作用往往涉及到功能域而不是整个蛋白。由蛋白—蛋白相互作用的数据加上蛋白对应的功能域信息，推断出功能域—功能域相互作用的数据，进而又促进了新的蛋白—蛋白相互作用的推断。目前已经存在一些功能域—功能域相互作用的数据库，包括实验验证的数据库如iPfam和3did数据库，以及其他基于实验和计算得到的数据库如InterDom，HIMAP和DOMINE等。一个很流行的预测功能域—功能域相互作用的方法是基于蛋白—蛋白相互作用的方法。
基于功能域的方法中存在的几点挑战：
1）整合从头预测保守区域的工具如MAST/MEME以及搜索已知功能域的工具，近而为多基因组比对分析中的保守序列模序给出较为全面的功能注释。
2）设计高效且界面友好的基于功能域的方法发现新基因和基因注释的软件。
3）设计高效且界面友好的基于功能域在不同物种中寻找同源基因和在同一个物种中寻找功能相同的蛋白的软件。
4）设计新算法和软件，综合利用基于功能域方法的能力以预测蛋白—蛋白相互作用。

Abstract: Protein evolution proceeds by two distinct processes: 1) individual mutation and selection for adaptive mutations and 2) rearrangement of entire domains within proteins into novel combinations, producing new protein families that combine functional properties in ways that previously did not exist. Domain rearrangement poses a challenge to sequence alignment-based search methods, such as BLAST, in predicting homology since the methodology implicitly assumes that related proteins primarily differ from each other by individual mutations. Moreover, there is ample evidence that the evolutionary process has used (and continues to use) domains as building blocks, therefore, it seems fit to utilize computational, domain-based methods to reconstruct that process. A challenge and opportunity for computational biology is how to use knowledge of evolutionary domain recombination to characterize families of proteins whose evolutionary history includes such recombination, to discover novel proteins, and to infer protein-protein interactions. In this paper we review techniques and databases that exploit our growing knowledge of ``horizontal'' protein evolution, and suggest possible areas of future development. We illustrate the power of the domain-based methods and the possible directions of future development by a case history in progress aiming at facilitating a particular approach to understanding microbial pathogenicity.

HTML全文

参考文献()

施引文献

资源附件()