事实与人为因素|计算方法的挑战

叶玉珍

事实与人为因素|计算方法的挑战

叶玉珍

Metagenomics: Facts and Artifacts, and Computational Challenges

摘要

摘要: 本文系统地讲述了在多元基因组的研究过程中，我们进行数据处理时使用到的工具和方法、以及这些方法因含有人为因素而造成的不准确之处。

多元基因组学方法是一种将基因测序或功能性试验应用到在实验室独立培养的、复杂多样的微生物中的研究方法。尽管传统的纯培育方法对物种的表征依然有着不可或缺的重要性，但其传统的排外特性阻碍了我们对微生物世界的进一步探究——微生物应该在一个群体中生存并相互作用。在这篇文章中，作者致力于介绍用于多元基因组数据分析的新计算方法和统计工具，并阐述了在分析过程中应用不当而可能导致错误结论的人为因素。

大规模的多元基因组数据，和该学科带来的全新的复杂性，以及研究人员提出的崭新问题，使得计算方法分析在该领域产生了比传统的基因工程更为重要的影响。在该学科的研究中，有如下计算和统计工具可以使用。
（1）基因组装和预测
DNA序列集齐后，数据分析的第一步是重构整个微生物的基因组。目前已设计出Metagene和Orphelia用来预测较短的毗连DNA序列；Krause和他的同事也研究出一种基因发现器用于毗连DNA序列；另辟蹊径的ORFome组装方法同时也应运而生。
（2）定性并定量地表征微生物种多样性的工具
人们已经开发出一些直接从原始数据推断物种信息的计算工具，它们对基因组的组装完全没有要求。一些基于相似性和系统发展的工具对已知的基因或蛋白质数据库进行多元基因组的相似性搜索；其他一些工具也已开发出来去应对相关问题，它们大多使用了DNA分解技术，但是基于DNA分解的方法只对较长的毗连DNA序列起作用；更多致力于解决超短毗连DNA序列的工具同时正在出现，而高精度的计算工具仍然有着很大的市场。
（3）功能预测
基于多元基因组数据的功能预测比基因的研究更为困难，相关算法和软件也更少一些。尽管我们已经亲眼目睹基于非同源的方法成功地解决了预测多元基因组序列的问题，但是许多现存的非同源性功能预测方法并不能应用到多元基因组序列的功能预测上。
（4）对比多元基因组学
对比多元基因组学对研究生活在不同环境中的微生物群体的功能和进化有其重要性。UniFrac一直以来经常用于比较包含不同宗族的群体，而MEGAN是另外一种基于所包含宗族进行多元基因组的视觉和统计比较工具。与此同时，微生物群体也可基于非宗族的其他信息进行比较。
（5）多元基因组学的统计工具
考虑到多元基因组研究中的采样和测序都可看成随机过程，我们需要统计工具来分析数据，PHACCS就是一种使用多元基因组信息估计未经培育的病毒群体的结构和多样性的在线工具。在基于不完全的观察或表征微生物群体对它们进行比较的过程中也需要统计技术，相关的用于群体成员和结构比较的统计工具已经开发出来。Metastat是一种用于检测两个种族不同特征的统计工具。与此同时，我们需注意到，不同的统计技术各有其用途和局限性。

多元基因组学促使我们研究微生物是如何适应它们的生存环境并与它们的宿主共同发展的，这些有基础意义和实际意义，各研究人员为此建立了自己的交互模型。

多元基因组序列的数据挖掘因规模庞大、序列复杂而变得具有挑战性，这也意味着在解决相应问题时人们更容易犯错误。以下列出了在多元基因组研究中发现的部分对结论产生较大影响的人为因素：
（1）16s rRNA 嵌合体容易导致对群体物种多样性的估计失误；
（2）人为的复制可能会给基因和大量分类单元的估计带来系统上的人为性；
（3）由于不同基因家族的长度，基于多元基因组数据中毗连DNA计数的基因家族的频率可能是不可靠的；
（4）注意人为通路的影响，MinPath这个计算工具可以很好地减少人为通路。

尽管最近二十年来DNA序列的工作成果成指数级增长，大量的多元基因组数据在很多领域依旧挑战着众多的研究人员：
（1）我们需要更多有效的计算工具处理大量的多元基因组数据；
（2）不同数据集的一体化需要更多的知识；
（3）我们依旧需要想象力。

Abstract: Metagenomics is the study of microbial communities sampled directly from their natural environment, without prior culturing. By enabling an analysis of populations including many (so-far) unculturable and often unknown microbes, metagenomics is revolutionizing the field of microbiology, and has excited researchers in many disciplines that could benefit from the study of environmental microbes, including those in ecology, environmental sciences, and biomedicine. Specific computational and statistical tools have been developed for metagenomic data analysis and comparison. New studies, however, have revealed various kinds of artifacts present in metagenomics data caused by limitations in the experimental protocols and/or inadequate data analysis procedures, which often lead to incorrect conclusions about a microbial community. Here, we review some of the artifacts, such as overestimation of species diversity and incorrect estimation of gene family frequencies, and discuss emerging computational approaches to address them. We also review potential challenges that metagenomics may encounter with the extensive application of next-generation sequencing (NGS) techniques.

HTML全文

参考文献()

施引文献

资源附件()