不依赖r终止子的预测及其在Synechococcus sp. WH8102 中的应用
Intrinsic Terminator Prediction and Its Application in Synechococcus sp. WH8102
-
摘要: 转录终止是基因转录的重要一环。转录终止子有两种类型:依赖辅助因子终止子和不依辅助因子终止子,后者通常被称为不依赖ρ终止子,它普遍存在于原核生物中。不依赖ρ终止子终止转录的机制还不清楚,虽然有报道认为多聚尿嘧啶尾巴(U-尾)并不重要, 但是当前多数研究认为RNA二级发夹结构和U-尾是不依赖ρ终止子的必要元件, 其中RNA二级发夹结构能阻止RNA多聚酶前进, U-尾则使RNA多聚酶从转录模板上脱落从而终止转录。在过去二十年中, 不少研究者已开始研究如何用计算方法来预测转录终止信号,如Brendel和Trifonov的双核苷酸分布矩阵法(dinucleotide distribution matrix)、Carafa 等的统计方法、TransTerm和RNAmotif法等,这些方法都从不同方面考虑了RNA二级结构和U-尾部的特征,而GeSTer的预测模型则设定RNA二级发夹结构是不依赖ρ终止子的唯一因素。所有这些方法都能够在一定程度上预测不依赖ρ终止子,如TransTerm已被广泛应用在DNA序列分析中,但是一个普遍存在的问题是这些方法都给出很多假阳性的预测结果. 本论文报道了一种不依赖ρ终止子预测的新方法-Rnall法,它建立于我们最近开发的RNA局部二级结构和以前发表的两种U-尾部分数计算方法。这种算法包含RNA 发夹结构、U-尾部U分布和U-尾部杂交能量三种参数,其中RNA发夹结构是用二级结构的能量来代表二级结构的稳定性,U-尾部的U分布代表U的分布情况(如U分布频率随二级结构的距离递减,U-尾部杂交能量代表U-尾部和转录模板杂交体的稳定性)。需要指出的是,U-尾部的U分布和U-尾部的杂交能量并不等同。我们同时比较了采用单个、两个及三个参数的模型,发现采用三种参数的模型总体效率(敏感率+特异率)最高。在E. coli中, 通过优化RNA发夹结构、U-尾部U分布和U-尾部杂交能量这三种参数,Rnall法能检测出92.25%已知的不依赖ρ终止子,同时舍弃98.48%编码区间的RNA二级结构(阴性对照)。本文所论述的不依赖ρ终止子预测算法被整合于我们开发的Rnall局部二级结构预测软件包内, 用户可免费下载,网址为http://digbio.missouri.edu/~wanx/Rnall/。我们应用Rnall法分析了Synechococcus sp. WH8102的基因组。Synechococcus sp. WH8102是一种海洋微生物,因其具有固碳作用可能为全球温室效应提供一条解决途径。尽管Synechococcus sp. WH8102基因组全序列已经测定, 但其基因调控机制还不清楚。研究Synechococcus sp. WH8102的不依赖ρ终止子可促进对该菌基因调控网络的理解。通过计算,我们预测到266个不依赖ρ终止子,其中包括232个蛋白编码基因,12个tRNA基因和3个rRNA基因,约17%不依赖ρ终止子位于操纵子的末端。我们还发现了8对双向不依赖ρ终止子(bi-directional terminators)。Abstract: A new method for intrinsic terminator prediction based on Rnall, an RNA local secondary structure prediction algorithm developed recently, and two U-tail score schemas are developed. By optimizing three parameters (thermodynamic energy of RNA hairpin structure, U-tail T weight, and U-tail hybridization energy), the method can recognize 92.25 of known terminators while rejecting 98.48 of predicted RNA local secondary structures in coding regions (negative control) as false intrinsic terminators in E. coli. This method was applied to scan the genome of Synechococcus sp. WH8102, and we predicted 266 intrinsic terminators, which included 232 protein-coding genes, 12 tRNA genes, and 3 rRNA genes. About 17\% of these terminators are located at the end of operons. It is also identified 8 pairs of bio-directional terminators. The method for intrinsic terminator prediction has been incorporated into Rnall, which is available at http://digbio.missouri.edu/\simwanx/Rnall/.