We use cookies to improve your experience with our site.

蛋白质结构能够即时确定吗?

Can We Determine a Protein Structure Quickly?

  • 摘要: 对于一个感兴趣的蛋白质,我们能否即时地,比如说在一周之内,精确地确定其空间结构呢?笔者认为,如果在现有的实验技术的基础上,再辅之以新开发的计算技术的话,那么即时确定蛋白质结构是有可能实现的。当前可资选择的技术,无论是X光晶体衍射方法还是核磁共振质谱方法,抑或是蛋白质结构的计算预测方法,都有其不足之处。在本文中,笔者以计算机科学家的视角来重新审视上述技术,并指出为完成这个宏大的目标,计算机科学家能够做出哪些独特的贡献。
    蛋白质结构确定的重要性不言而喻,因为这是了解“从基因到功能”的重要一步。美国能源局(DOE)和国家卫生总署(NIH)启动了功能基因组项目,计划使用生物学实验方法比如(NMR和X射线晶体衍射)测定一些有代表性的蛋白质结构,至于其他的蛋白质,则使用计算的方法预测出的结构。然而上述方案存在着一个潜在的问题:假设生物学家试图研究某个蛋白质的功能,往往不满足于使用计算方法预测的蛋白质结构,但是高精度的蛋白质结构测定一般需要半年的时间。因此,一种“即时”的蛋白质结构确定技术是很有实际意义的,即对于感兴趣的蛋白质,综合使用实验技术和计算技术,在一周之内测定其结构。
    值得指出的是,对于计算机科学家而言,蛋白质结构确定问题看起来包含过多的技术细节,然而这恰恰是我们想着重强调的:与其解决一个有着漂亮的形式化的问题,比如仅仅使用蛋白质序列预测蛋白质结构,不如充分挖掘和利用领域知识所蕴含的变量约束。下面我们即从这一观点出发重新检视现有的蛋白质结构确定技术,并列举出每种技术中的待解决问题。
    1。蛋白质结构预测技术
    使用计算技术预测蛋白质结构的方法大致可以分作两类:一类是基于结构模板的方法,比如像FB5-HMM、PROSPECT、ROSSETA、RAPTOR、MUFOLD等;另一类是基于结构片段的方法,比如ROSSETA和FALCON等。其中ROSSETA是对每个长度为9的片段预测出可能的局部结构,然后将这些局部结构拼接成整体结构;而FALCON是使用这些局部结构训练出一个Position-specific的隐马尔可夫模型(HMM),然后从这个HMM采样出整体结构。TASSER则从Threading结果中抽取出长度不等的局部结构片段,然后进行拼接。
    虽然蛋白质结构预测技术近年来取得了显著的进展,然而人们对被标有“预测结果”标签的结构始终心存疑虑:预测技术能否稳定地产生出高精度的结构?如何给预测结果一个可信度打分?
    仔细分析FALCON的性能,我们发现FALCON多次迭代之后能够收敛到一个高精度的结构。进一步提高精度的瓶颈不在于预测方法,而是设计更加精确的能量函数。 从计算的观点看,随着已知结构数量的不断增加,利用统计技术设计精确的能量函数是可行的。

    2。基于NMR技术的蛋白质结构确定

    使用NMR技术确定一个蛋白质结构往往需要很多时间:
    第一步,蛋白质样品制备,大约需要5天的时间;
    第二步,核磁共振实验来生成核磁共振谱图,每张谱图要花费大约1到2天的时间,多幅谱图可以并行生成;
    第三步,谱图分析计算出化学偏移,估计出残基间距离,并最终计算出蛋白质结构。目前谱图分析部分还采用手工或半自动的方法,因此此步大约需要花费20到270天的时间。
    因此,如果想基于NMR技术来达到”蛋白质结构按需即时确定”这一目标的话,需要解决如下几个挑战:
    1) 高精度的谱峰提取算法:在NMR实验中,相互耦合的原子核表达出信号,被形象地称做NMR谱峰。经过傅立叶变换之后,谱峰坐标表示相应原子核的化学偏移信息。目前NMR实验室基本上仍让采用手工或者半手工的方式提取谱峰。
    2) 容错的谱峰归属算法:由于谱峰提取不可避免地存在错误,因此在将谱峰归属到残基这一步需要容错算法。
    容错的结构生成算法:由于谱峰提取中的错误,从NOE谱中估计残基间距离也可能存在错误,因此要求最终的结构生成算法也必须是能够容错的;
    结构信息辅助的谱峰归属算法:在有些应用场合中,我们是能够找到一些结构信息来辅助谱峰归属计算的。比如蛋白质设计一般是从已知结构的蛋白质出发,对某些残基进行修改;在结构确定中,从上一轮计算得到的低精度结构也可以作为参考信息。我们称这些已知结构的蛋白质为参考蛋白质。此外,有时参考蛋白质的谱峰归属信息也是能够获得的。如何有效使用这些信息来提高谱峰归属的精度,是值得研究的问题。
    化学偏移预测:如何从蛋白质结构出发预测出残基的化学偏移也是值得研究的问题。目前常用的软件,比如SHIFTX(SHIFTY)和SPARTA,对于N的预测误差大约为2-3ppm,其精度还有待提高。
    此外,无论是X射线还是核磁共振都不能处理非可溶性蛋白质,比如膜蛋白,对于这些蛋白,我们只能期待新的技术的日益成熟。

     

    Abstract: Can we determine a high resolution protein structure quickly, say, in a week? I will show this is possible by the current technologies together with new computational tools discussed in this article. We have three potential paths to explore:
     
     
     
     
  • X-ray crystallography. While this method has produced the most protein structures in the PDB (Protein Data Bank), the nasty trial-and-error crystallization step remains to be an inhibitive obstacle.
  • NMR (Nuclear Magnetic Resonance) spectroscopy. While the NMR experiments are relatively easy to do, the interpretation of the NMR data for structure calculation takes several months on average.
  • In silico protein structure prediction. Can we actually predict high resolution structures consistently? If the predicted models remain to be labeled as ``predicted'', and these structures still need to be experimentally verified by the wet lab methods, then this method at best can serve only as a screening tool.
    I investigate the question of ``quick protein structure determination'' from a computer scientist point of view and actually answer the more relevant question ``what can a computer scientist effectively contribute to this goal''.
     
     
     
     
     
  •  

  • /

    返回文章
    返回