基于基因组数据的细菌以及细菌与宿主相互作用的计算分析鉴定
Computational Challenges in Characterization of Bacteria and Bacteria-Host Interactions Based on Genomic Data
-
摘要: 本文系统地综述了应用基因组数据对细菌鉴定以及细菌-宿主相互作用鉴定的计算方法。随着新一代测序技术的快速发展,基于基因组的数据分析,特别是基于多元基因组学的数据分析已成为细菌鉴定的一个重要方法。在过去数年中,人们提出和采用了许多计算方法,有些方法已经被广泛地应用于细菌鉴定中,但在算法及软件上尚有很大的空间去改进与开发。在这篇文章中,作者介绍了多种细菌鉴定的计算方法,分析了不同方法的长处与局限,同时提出了一些可能的解决方案以及应用前景。此外,作者还列举了两个应用计算方法作为细菌鉴定的实例,以此来启发研究人员对现有的方法进行改进及创新。基因组数据的飞速增长对于微生物学的发展有着巨大的促进作用,细菌的鉴定成为了细菌基因组数据分析中重要的一环。现有的细菌鉴定结果受着生物学定义上的一些限制,比如分类学中物种定义的不准确性,以及应用16s rRNA基因序列作为物种分类方法本身的局限性,此外计算方法上的不足也限制了应用这些新一代测序数据对微生物的研究。现有的计算方法基本上分为同源性检测以及序列组成检测两大类。其中同源性检测主要分为序列搜索/比对和进化树两类方法。序列组成检测通过从序列中提取特征来训练模型,这些特征包括GC含量,密码子使用率,基序出现频率等等。常用的分类模型有朴素贝叶斯,马尔可夫模型,以及支持向量机。无论使用何种计算方法,这些方法都反映出一些普遍的缺陷,最主要的问题是在于细菌种/属层次下识别的准确率较低,此外现有的计算平台和软件也存在一定的局限性,比如:1. 缺乏一个统一的公用开源软件平台,新方法难以推广实现;2. 缺乏对高性能计算技术的支持,而高性能计算技术,如并行计算的支持可以显著地提高分类的效率,同时对于复杂模型的实现也提供了可能;3. 单基因标记,尤其是使用16s rRNA序列为标记有着本身的局限,使用复杂标记,或者多标记可以提高鉴定的准确度。细菌鉴定在针对细菌-环境相互作用以及细菌-宿主相互作用的问题上,需要更加准确的,灵敏度更高的计算方法。本文作者列举了两个相关的应用实例,第一个实例是利用Faealibacterium的16s rRNA基因序列来分辨宿主特异性菌株,从而监测水污染源,其本质是在同一物种下,不同亚种的鉴定。第二个实例是利用幽门螺杆菌CagA蛋白序列来检测细菌与疾病之间的相互关系,更进一步到同一亚种下,不同生态型的鉴定。作者采用的熵-支持向量机为基础的方法不仅提出了以上两个问题的解决方案,同时也为细菌鉴定的一般方法提供了新的思路。Abstract: With the rapid development of next-generation sequencing technologies, bacterial identification becomes a very important and essential step in processing genomic data, especially for metagenomic data. Many computational methods have been developed and some of them are widely used to address the problems in bacterial identification. In this article we review the algorithms of these methods, discuss their drawbacks, and propose future computational methods that use genomic data to characterize bacteria. In addition, we tackle two specific computational problems in bacterial identification, namely, the detection of host-specific bacteria and the detection of disease-associated bacteria, by offering potential solutions as a starting point for those who are interested in the area.