蛋白质结构能够即时确定吗？

李明

蛋白质结构能够即时确定吗？

李明

Can We Determine a Protein Structure Quickly?

Ming Li

摘要

摘要: 对于一个感兴趣的蛋白质，我们能否即时地，比如说在一周之内，精确地确定其空间结构呢？笔者认为，如果在现有的实验技术的基础上，再辅之以新开发的计算技术的话，那么即时确定蛋白质结构是有可能实现的。当前可资选择的技术，无论是X光晶体衍射方法还是核磁共振质谱方法，抑或是蛋白质结构的计算预测方法，都有其不足之处。在本文中，笔者以计算机科学家的视角来重新审视上述技术，并指出为完成这个宏大的目标，计算机科学家能够做出哪些独特的贡献。
蛋白质结构确定的重要性不言而喻，因为这是了解“从基因到功能”的重要一步。美国能源局(DOE)和国家卫生总署(NIH)启动了功能基因组项目，计划使用生物学实验方法比如(NMR和X射线晶体衍射)测定一些有代表性的蛋白质结构，至于其他的蛋白质，则使用计算的方法预测出的结构。然而上述方案存在着一个潜在的问题：假设生物学家试图研究某个蛋白质的功能，往往不满足于使用计算方法预测的蛋白质结构，但是高精度的蛋白质结构测定一般需要半年的时间。因此，一种“即时”的蛋白质结构确定技术是很有实际意义的，即对于感兴趣的蛋白质，综合使用实验技术和计算技术，在一周之内测定其结构。
值得指出的是，对于计算机科学家而言，蛋白质结构确定问题看起来包含过多的技术细节，然而这恰恰是我们想着重强调的：与其解决一个有着漂亮的形式化的问题，比如仅仅使用蛋白质序列预测蛋白质结构，不如充分挖掘和利用领域知识所蕴含的变量约束。下面我们即从这一观点出发重新检视现有的蛋白质结构确定技术，并列举出每种技术中的待解决问题。
1。蛋白质结构预测技术
使用计算技术预测蛋白质结构的方法大致可以分作两类：一类是基于结构模板的方法，比如像FB5-HMM、PROSPECT、ROSSETA、RAPTOR、MUFOLD等；另一类是基于结构片段的方法，比如ROSSETA和FALCON等。其中ROSSETA是对每个长度为9的片段预测出可能的局部结构，然后将这些局部结构拼接成整体结构；而FALCON是使用这些局部结构训练出一个Position-specific的隐马尔可夫模型(HMM)，然后从这个HMM采样出整体结构。TASSER则从Threading结果中抽取出长度不等的局部结构片段，然后进行拼接。
虽然蛋白质结构预测技术近年来取得了显著的进展，然而人们对被标有“预测结果”标签的结构始终心存疑虑：预测技术能否稳定地产生出高精度的结构？如何给预测结果一个可信度打分？
仔细分析FALCON的性能，我们发现FALCON多次迭代之后能够收敛到一个高精度的结构。进一步提高精度的瓶颈不在于预测方法，而是设计更加精确的能量函数。从计算的观点看，随着已知结构数量的不断增加，利用统计技术设计精确的能量函数是可行的。

2。基于NMR技术的蛋白质结构确定

使用NMR技术确定一个蛋白质结构往往需要很多时间：
第一步，蛋白质样品制备，大约需要5天的时间；
第二步，核磁共振实验来生成核磁共振谱图，每张谱图要花费大约1到2天的时间，多幅谱图可以并行生成；
第三步，谱图分析计算出化学偏移，估计出残基间距离，并最终计算出蛋白质结构。目前谱图分析部分还采用手工或半自动的方法，因此此步大约需要花费20到270天的时间。
因此，如果想基于NMR技术来达到”蛋白质结构按需即时确定”这一目标的话，需要解决如下几个挑战：
1) 高精度的谱峰提取算法：在NMR实验中，相互耦合的原子核表达出信号，被形象地称做NMR谱峰。经过傅立叶变换之后，谱峰坐标表示相应原子核的化学偏移信息。目前NMR实验室基本上仍让采用手工或者半手工的方式提取谱峰。
2) 容错的谱峰归属算法：由于谱峰提取不可避免地存在错误，因此在将谱峰归属到残基这一步需要容错算法。
容错的结构生成算法：由于谱峰提取中的错误，从NOE谱中估计残基间距离也可能存在错误，因此要求最终的结构生成算法也必须是能够容错的；
结构信息辅助的谱峰归属算法：在有些应用场合中，我们是能够找到一些结构信息来辅助谱峰归属计算的。比如蛋白质设计一般是从已知结构的蛋白质出发，对某些残基进行修改；在结构确定中，从上一轮计算得到的低精度结构也可以作为参考信息。我们称这些已知结构的蛋白质为参考蛋白质。此外，有时参考蛋白质的谱峰归属信息也是能够获得的。如何有效使用这些信息来提高谱峰归属的精度，是值得研究的问题。
化学偏移预测：如何从蛋白质结构出发预测出残基的化学偏移也是值得研究的问题。目前常用的软件，比如SHIFTX(SHIFTY)和SPARTA，对于N的预测误差大约为2-3ppm，其精度还有待提高。
此外，无论是X射线还是核磁共振都不能处理非可溶性蛋白质，比如膜蛋白，对于这些蛋白，我们只能期待新的技术的日益成熟。

Abstract: Can we determine a high resolution protein structure quickly, say, in a week? I will show this is possible by the current technologies together with new computational tools discussed in this article. We have three potential paths to explore:
X-ray crystallography. While this method has produced the most protein structures in the PDB (Protein Data Bank), the nasty trial-and-error crystallization step remains to be an inhibitive obstacle.
NMR (Nuclear Magnetic Resonance) spectroscopy. While the NMR experiments are relatively easy to do, the interpretation of the NMR data for structure calculation takes several months on average.
In silico protein structure prediction. Can we actually predict high resolution structures consistently? If the predicted models remain to be labeled as ``predicted'', and these structures still need to be experimentally verified by the wet lab methods, then this method at best can serve only as a screening tool.
I investigate the question of ``quick protein structure determination'' from a computer scientist point of view and actually answer the more relevant question ``what can a computer scientist effectively contribute to this goal''.