探索细菌基因组结构中面临的计算挑战

徐鹰

摘要: 在进化的过程当中，细菌的细胞机器的功能是如何决定其基因组中基因的排列的？在这篇文章中，作者就如何用计算的方法研究这个问题展开了探讨，日益庞大的基因组数据库能够帮助我们对这一问题有更加深入的理解。作者讨论了在研究各个层次的基因组结构中遇到的一些挑战性的计算问题，试图得到对于细菌基因组如何组织的内在机理的认识。
细菌是地球上最简单的能够独立生存的生物。细菌虽小，却能够完成一些令人惊叹的事情，并且，他们在保持生态稳定、人体健康等方面也发挥着巨大的作用。所有这一切，都被编码在了细菌的基因组中。那么，对这个神秘的基因组，我们知道了多少呢？哪些还不知道呢？哪些能够知道呢？
A，关于细菌的基因组我们已知的信息。
细菌的基因组是有结构的。基因先被组织成了操纵子（operons），然后再被组织成更高层次的调控子（regulons）。操纵子是基本的转录单元，而调控子是基本的细胞反应系统单元。所有的基因可以被分成三类：1）编码蛋白质的基因，2）编码蛋白质功能的基因，3）非编码RNA基因。需要指出的是第二类基因，一个蛋白质的功能并没有直接编码在基因组里，而最终是由其氨基酸序列决定的。作者对这三类基因，以及操纵子、启动子、顺势调控元件、可移动元件等做了相应介绍。
B，关于细菌的基因组我们哪些还不知道。
我们把细菌看成一个复杂的机器，那么这台机器由三个相互作用的系统组成：1）代谢系统，2）调控系统，3）信号系统。同时，我们应该把细菌的基因组看成一本说明书，它指导这三个系统协调工作。但是：1）我们对书写这部说明书的语言知之甚少，2）我们对这部机器的设计原理知之甚少，3）我们对编码生物通路的基因在基因组中的组织形式有了一定认识，但是对他们为什么会以这种方式组织知之甚少，4）我们对外来基因如何适应新的环境以及如何行使新的功能知之甚少……总而言之，对于这部机器和其说明书，我们所知道的只是冰山一角。
C，显然，细菌基因组中蕴含的信息和我们已经知道的信息之间有一个巨大的鸿沟。好的消息是，很多新知识是能够从已知知识推导出来，来填补这个鸿沟的。在这篇文章剩下的部分里，作者讨论了在可预见的将来，一些可以只从基因组序列推导得到的新知识。
首先，很大一部分新信息可以通过基因组的比较得到（比较基因组分析，Comparative Genome Analyses）。比较基因组的目的是寻找同源基因（orthologous genes)，但是由于对于同源基因没有一个可操作的定义（operational definition），使得到目前为止还没有一个普遍认可的算法来解决这个问题，现有的方法大多是基于序列相似性比较。
在发现新知识的过程中，基因组的可视化会给予我们很大的帮助。可视化不仅给予生物学家巨大的便利，而且，伴随着基因组数据库的膨胀，计算学家也可以独立的发现新知识。其中值得一提的是超级操纵子（uber-operons）和基因组条形码（barcode of genome）的发现。
目前，对于操纵子和顺势调控主体的预测和识别已经有了较大进展。很多预测软件已经经过了实践的检验，预测精度也已经达到了90％。另外，最近的研究表明操纵子还具有子结构，子结构中的基因独立于操纵子中的其他基因进行转录。
除此之外，寻找功能上有关联的基因，预测调控子，探究操纵子在代谢通路中的分布规律的内在机理，识别可以动的元件，发展新的基因组可视化工具……这些问题都在卓有成效的进展着，这些进展也使我们相信能够从已知知识得到很多新知识，并且最终揭示细菌基因组的整体特性和内在机理。“It is the right time to do this.”

Abstract: This article addresses how the functionalities of the cellular machinery of a bacterium might have constrained the genomic arrangement of its genes during evolution and how we can study such problems using computational approaches, taking full advantage of the rapidly increasing pool of the sequenced bacterial genomes, potentially leading to a much improved understanding of why a bacterial genome is organized in the way it is. This article discusses a number of challenging computational problems in elucidating the genomic structures at multiple levels and the information that is encoded through these genomic structures, gearing towards the ultimate understanding of the governing rules of bacterial genome organization.

探索细菌基因组结构中面临的计算挑战

Computational Challenges in Deciphering Genomic Structures of Bacteria