基因组编辑技术体系流程图(精选30余款宏基因组分析软件)(1)

相比于16S的短平快,对于很多微生物组学,尤其是环境微生态方向的科研工作者而言,宏基因组仍然是“啃不动的硬骨头”和“信息分析黑箱子”。

这里,我为大家整理了一些主流和常用的宏基因组分析软件,结合自己的工作经验和其他文献中的报道稍作评述,分享给大家,欢迎补充、指正。

01流程集成

1、MG-RAST

MG-RAST (the Metagenomics RAST) server is an automated analysis platform for metagenomes providing quantitative insights into microbial populations based on sequence data which provides upload, quality control, automated annotation and analysis for prokaryotic metagenomic shotgun samples.

最新版本:

Version 4.02(最近更新时间2017年5月)

参考文献:PMID: 18803844

官网地址:http://metagenomics.anl.gov/

老司机点评

宏基因组因数据量大,很耗费计算资源,自行分析,搭建整个分析流程,时间成本和计算成本都很大,集成软件也很少,值得高兴的是,还是有一款免费的在线分析服务器MG-RAST,只要上传数据(原始下机数据,质控后数据或者组装后的数据均可),就可以进行数据质控和在线分析,还可以跟别人的数据比较。但也有缺憾,一是上传数据很费时,毕竟宏基因组数据量比较大,二是分析结果大概要等一周左右,毕竟宏基因组分析很耗费计算资源的,所以要做好一定的心理准备,三是提供的第三方分析工具太少,分析方法没有更多选择。

宏基因组常见组装软件(PMID: 28099457)

宏基因组组装组装难点在于,物种复杂度高导致需要的测序量比较大,需要的计算资源也就比较大,同时导致测序深度不均一,低丰度的物种可能测序深度不够,很难被组装出来,reads利用率不高。

一般来说,中复杂度环境如肠道样品,一般用soapdenovo就足够了,需要内存80G左右。环境样本(如土壤,水体)其复杂度远高于肠道样品,组装软件就需要好好甄选一下了。IDBA-UD适合测序深度不均一的数据,因此从理论上来说是适合宏基因组组装的,尤其是复杂环境(如土壤,水体),但存在资源消耗过高,需要时间过长的问题。MEGAHIT具有资源消耗少,时间消耗短,组装结果优,reads利用率高的特点。

分享一个自己做的软件评测结果,供大家参考:10G土壤样品,IDBA-UD需要内存200-500G,4线程,需要2.5天;MEGAHIT需要内存40-60G,15线程,需要5小时。从组装结果来看,MEGAHIT的组装总长和数目提升2倍,reads利用率提升3倍,scaftigs平均长度,N50,最大长度无明显变化,对后续基因预测数目也有一定的提升。目前MEGAHIT在现有组装软件中,资源消耗基本上是最低的,因此很适合宏基因组中的复杂环境样品。

还有上面介绍过的软件SPAdes,无论单菌、宏基因组还是宏病毒组都表现不错,最新的版本打包了metaSPAdes、plasmidSPAdes、rnaSPAdes等等模块,在今年的一篇测评文章(metaSPAdes: a new versatile metagenomics assembler)中显示即使在复杂环境(土壤),组装效果也大大优于megahit、IDBA-UD等,但遗憾的是没有megahit资源消耗低。此外,SPAdes还支持来自不同平台数据的混装,包括Pacbio、Nanopore等。

有了好的组装结果,宏基因组就成功了一半。

下一期,为大家继续分享基因预测、物种注释、功能注释、binning等内容。

基因组编辑技术体系流程图(精选30余款宏基因组分析软件)(2)

基因组编辑技术体系流程图(精选30余款宏基因组分析软件)(3)

,