摘要:
对于一个感兴趣的蛋白质,我们能否即时地,比如说在一周之内,精确地确定其空间结构呢?笔者认为,如果在现有的实验技术的基础上,再辅之以新开发的计算技术的话,那么即时确定蛋白质结构是有可能实现的。当前可资选择的技术,无论是X光晶体衍射方法还是核磁共振质谱方法,抑或是蛋白质结构的计算预测方法,都有其不足之处。在本文中,笔者以计算机科学家的视角来重新审视上述技术,并指出为完成这个宏大的目标,计算机科学家能够做出哪些独特的贡献。
蛋白质结构确定的重要性不言而喻,因为这是了解“从基因到功能”的重要一步。美国能源局(DOE)和国家卫生总署(NIH)启动了功能基因组项目,计划使用生物学实验方法比如(NMR和X射线晶体衍射)测定一些有代表性的蛋白质结构,至于其他的蛋白质,则使用计算的方法预测出的结构。然而上述方案存在着一个潜在的问题:假设生物学家试图研究某个蛋白质的功能,往往不满足于使用计算方法预测的蛋白质结构,但是高精度的蛋白质结构测定一般需要半年的时间。因此,一种“即时”的蛋白质结构确定技术是很有实际意义的,即对于感兴趣的蛋白质,综合使用实验技术和计算技术,在一周之内测定其结构。
值得指出的是,对于计算机科学家而言,蛋白质结构确定问题看起来包含过多的技术细节,然而这恰恰是我们想着重强调的:与其解决一个有着漂亮的形式化的问题,比如仅仅使用蛋白质序列预测蛋白质结构,不如充分挖掘和利用领域知识所蕴含的变量约束。下面我们即从这一观点出发重新检视现有的蛋白质结构确定技术,并列举出每种技术中的待解决问题。
1。蛋白质结构预测技术
使用计算技术预测蛋白质结构的方法大致可以分作两类:一类是基于结构模板的方法,比如像FB5-HMM、PROSPECT、ROSSETA、RAPTOR、MUFOLD等;另一类是基于结构片段的方法,比如ROSSETA和FALCON等。其中ROSSETA是对每个长度为9的片段预测出可能的局部结构,然后将这些局部结构拼接成整体结构;而FALCON是使用这些局部结构训练出一个Position-specific的隐马尔可夫模型(HMM),然后从这个HMM采样出整体结构。TASSER则从Threading结果中抽取出长度不等的局部结构片段,然后进行拼接。
虽然蛋白质结构预测技术近年来取得了显著的进展,然而人们对被标有“预测结果”标签的结构始终心存疑虑:预测技术能否稳定地产生出高精度的结构?如何给预测结果一个可信度打分?
仔细分析FALCON的性能,我们发现FALCON多次迭代之后能够收敛到一个高精度的结构。进一步提高精度的瓶颈不在于预测方法,而是设计更加精确的能量函数。 从计算的观点看,随着已知结构数量的不断增加,利用统计技术设计精确的能量函数是可行的。
2。基于NMR技术的蛋白质结构确定
使用NMR技术确定一个蛋白质结构往往需要很多时间:
第一步,蛋白质样品制备,大约需要5天的时间;
第二步,核磁共振实验来生成核磁共振谱图,每张谱图要花费大约1到2天的时间,多幅谱图可以并行生成;
第三步,谱图分析计算出化学偏移,估计出残基间距离,并最终计算出蛋白质结构。目前谱图分析部分还采用手工或半自动的方法,因此此步大约需要花费20到270天的时间。
因此,如果想基于NMR技术来达到”蛋白质结构按需即时确定”这一目标的话,需要解决如下几个挑战:
1) 高精度的谱峰提取算法:在NMR实验中,相互耦合的原子核表达出信号,被形象地称做NMR谱峰。经过傅立叶变换之后,谱峰坐标表示相应原子核的化学偏移信息。目前NMR实验室基本上仍让采用手工或者半手工的方式提取谱峰。
2) 容错的谱峰归属算法:由于谱峰提取不可避免地存在错误,因此在将谱峰归属到残基这一步需要容错算法。
容错的结构生成算法:由于谱峰提取中的错误,从NOE谱中估计残基间距离也可能存在错误,因此要求最终的结构生成算法也必须是能够容错的;
结构信息辅助的谱峰归属算法:在有些应用场合中,我们是能够找到一些结构信息来辅助谱峰归属计算的。比如蛋白质设计一般是从已知结构的蛋白质出发,对某些残基进行修改;在结构确定中,从上一轮计算得到的低精度结构也可以作为参考信息。我们称这些已知结构的蛋白质为参考蛋白质。此外,有时参考蛋白质的谱峰归属信息也是能够获得的。如何有效使用这些信息来提高谱峰归属的精度,是值得研究的问题。
化学偏移预测:如何从蛋白质结构出发预测出残基的化学偏移也是值得研究的问题。目前常用的软件,比如SHIFTX(SHIFTY)和SPARTA,对于N的预测误差大约为2-3ppm,其精度还有待提高。
此外,无论是X射线还是核磁共振都不能处理非可溶性蛋白质,比如膜蛋白,对于这些蛋白,我们只能期待新的技术的日益成熟。