真菌基因组的有效鉴定与注释分析
Effective Identification and Annotation of Fungal Genomes
-
摘要: 研究背景(context)
真菌引起的相关疾病引起了国内外研究者的广泛关注,致病真菌可以引起消化不良和过敏等轻微影响,严重情况下可导致错觉、器官衰竭甚至死亡。因此,有效地鉴定引起人类疾病的致病菌有着重要的意义和价值。当前随着测序技术的不断进步,通过测序数据进行真菌等微生物的快速精准鉴定和注释已成为了研究热点。
目的(Objective)
随着测序价格的不断降低,出现了大量的基因组测序数据。面对日益增多的基因组数据,当前仍缺乏易于使用、高效精准的测序数据分析工作流,尤其是缺乏面向大规模真菌基因组测序数据的高效鉴定和注释分析工作流。此外,以Illumina为代表的第二代测序平台产生的reads准确率较高,但长度较短;而以PacBio为代表的第三代测序平台产生的reads虽然长度较长,但准确率较低。在研究新菌种鉴定和注释过程中,往往会统筹考虑二三代测序数据的优势进行综合分析,因此,构建既可以支持短序列数据分析,又可以支持长序列数据分析的高效分析工作流,对提升微生物测序数据分析质量和效率有着重要的作用。
方法(Method)
面向二三代测序数据,本文首先研究了真菌基因组短序列和长序列数据分析方法,并在此基础上构建了支持真菌基因组测序数据快速识别和注释的自动化生物信息学分析工作流PFGI。具体来讲,PFGI可以首先选择短序列或长序列数据分析模式,通过质量控制等预处理后,通过序列组装、序列比对和相似参考基因组鉴定三个过程完成真菌基因组测序数据鉴定。此外,PFGI提供了CDS注释,同时支持prokka注释以及MLST注释等功能。
结果(Result&Findings)
为了验证PFGI工作流的分析性能,选取了EMBL Nucleotide Sequence Database数据集中的烟曲霉(aspergillus fumigatus),白色念珠菌(candida albicans),酵母菌(saccharomyces cerevisiae)和黄萎病菌(verticillium dahlia)等短序列和长序列基因组测序数据进行测试。通过实验评估可以发现PFGI具有较好的分析效率和较高的精准度,可以快速有效地完成对短序列和长序列真菌基因组测序数据的鉴定和注释工作,提供精准的分析结果。
结论(Conclusions)
本文构建了一种支持二三代测序数据、面向大规模真菌基因组数据的高效鉴定和注释分析工作流PFGI。PFGI同时提供了CDS注释及MLST注释等分析功能,可以为生物学家、临床医生等科研工作者提供易于使用、快速精准的生物信息学分析工具,可以被广泛应用于工业微生物菌种鉴定和改造以及临床诊疗等应用服务。Abstract: In the past few decades, the dangers of mycosis have caused widespread concern. With the development of the sequencing technology, the effective analysis of fungal sequencing data has become a hotspot. With the gradual increase of fungal sequencing data, there is now a lack of sufficient approaches for the identification and functional annotation of fungal chromosomal genomes. To overcome this challenge, this paper firstly deals with the approaches of the identification and annotation of fungal genomes based on short and long reads sequenced by using multiple platforms such as Illumina and Pacbio. Then this paper develops an automated bioinformatics pipeline called PFGI for the identification and annotation task. The experimental evaluation on a real-world dataset ENA (European Nucleotide Archive) shows that PFGI provides a user-friendly way to perform fungal identification and annotation based on the sequencing data analysis, and could provide accurate analyzing results, accurate to the species level (97% sequence identity).