求解非格点模型的蛋白质折叠问题的拟物算法
Quasi-Physical Algorithm of an Off-Lattice Model for Protein Folding Problem
-
摘要: 蛋白质折叠问题也即蛋白质结构预测问题。它是生物信息学领域的核心问题之一。随着人类基因组测序工作的完成,蛋白质的功能研究已经提到日程上来,这标志着功能基因组,即后基因组时代的到来。蛋白质的功能和结构具有密切的关系,只有处在一定的空间结构中蛋白质分子才能够发挥其特定的生物学功能。自20世纪50年代以来,Anfinsen等人就发现蛋白质的空间折叠结构取决于构成该蛋白质的氨基酸序列,也就是说蛋白质的空间折叠结构的全部信息都隐藏在蛋白质的线性结构中,即氨基酸序列中。因此,从理论上讲,我们可以根据蛋白质的氨基酸序列来预测蛋白质的空间折叠结构。尽管通过实验手段,很容易测出蛋白质的氨基酸序列,但是要观测蛋白质的空间结构却非常困难。于是,近年来人们开始转向理论计算的方法,并提出了一些简化模型,包括HP格点模型(HP Lattice Model)和HP非格点模型(HP Off-lattice Model)。在这些模型中,仅仅考虑两种氨基酸——疏水氨基酸(Hydrophobic,用H表示)和亲水氨基酸(Hydrophilic或Polar,用P表示)。尽管这些模型都是一些简化模型,但要求解相应的蛋白质结构预测问题仍然是NP难度的。对于这些模型,近年来国内外许多学者提出了很多近似求解算法。尽管这些算法在求解蛋白质结构预测问题时取得了较大的进展,但其效率仍有待于进一步提高。本文试图找到一种高效的启发式算法去求解蛋白质结构预测问题,被使用的方法称为拟物法。其工作路径是,到物理世界中去寻找与蛋白质折叠问题等价的自然现象,然后观察其中物质运动的演化规律,从中受到启发以得出形式化的对于蛋白质折叠问题的求解算法。为了考查拟物方法对于蛋白质折叠问题是否有效,本文引进了一个由Stillinger等提出的AB模型。该模型是一种非格点的蛋白质模型,也仅仅考虑两种氨基酸——疏水氨基酸(现在用A表示)和亲水氨基酸(现在用B表示)。该模型已经被许多学者研究过,并提出了许多近似求解算法,最具有代表性的有:神经网络(neural networks)法,模拟退火(simulated tempering)法,蒙特卡罗(Monte Carlo)法以及PERM算法(Pruned-Enriched-Rosenbluth Method)等。本文研究该模型的三维形式,并给出文献中研究的所有不同氨基酸序列的低能构形。计算结果显示,拟物方法对于研究非格点模型的蛋白质结构预测问题是有效的。对于所有4个算例,算法找到了能量值比目前已知基态能量更低的构形。对于这些算例中的3个,还找到了文献中所没有的全新的基态。而且,该方法有希望应用到具有真实能量的全原子模型中去,与模拟退火算法、遗传算法等相结合,为蛋白质结构预测问题设计出更高性能的各种新的求解算法。Abstract: Protein folding problem is one of the most prominentproblems of bioinformatics. In this paper, we study a three-dimensionaloff-lattice protein AB model with two species of monomers, hydrophobicand hydrophilic, and present a heuristic quasi-physical algorithm.By elaborately simulating the movement of the smooth elasticballs in the physical world, the algorithm finds low-energyconfigurations for a given monomer chain. A subsequent ``off-trap''strategy is proposed to trigger a jump for a stuck situation in orderto get out of local minima. The methods have been tested in theoff-lattice AB model. The computational results show promisingperformance. For all sequences with 13 to 55 monomers, the algorithmfinds states with lower energy than previously proposed putative groundstates. Furthermore, for the sequences with 21, 34 and 55 monomers,new putative ground states are found, which are different from thosegiven in present literature.