随着过去几年间,基因组测序读长越来越长,测序成本越来越低,研究人员已经开始雄心勃勃的编撰复杂微生物菌种,病毒毒株的基因组丰度和变异图谱。这种可以称之为宏基因组的研究方法首先需要从环境中收集这些微生物和病毒的细胞样品,然后进行破碎,将它们的基因组DNA降解成片段,然后通过测序仪进行分析。 宏基因组分析比一般的基因组分析需要更多的借助计算机技术,这是因为这分析的是不同的基因组混合物,而不是单纯的同质微生物菌群。由此宏基因组分析也产生了比一般基因组分析更多的数据,这也是这一研究领域的一大挑战,来自加州大学的进化生物学家 Jonathan Eisen表示。 不仅科学家们希望能了解微生物的特殊生存环境——考虑到这些微生物平均99%都没有被体外培养过,要做到这一点并不容易,而且他们也希望能了解这些微生物的功能,以及微生物相互之间如何竞争作用的。“测序成本不高,但是这并不是说简单把一个菌群放入测序仪中,就可以得到结果了,”Eisen说。 科学家们尝试利用一些改进的样品处理方法或分析方法,进行宏基因组复杂分析,尤其是一些计算机方法不断更新,能帮助研究人员们处理这些不断变大和变化的数据集。 近期The Scientist杂志汇总了一些用于微生物基因组数据分析的新技术方法与软件: MEGAN5 MEGAN主要用于MEtaGenome ANalyzer,最初是在2007年开发出来,用于识别长毛猛犸象骨中DNA测序研究的微生物污染。MEGAN5是去年发布的最新版本,除了可以帮助进行分类分析,也可以快速比较多个数据集,区分宏基因组中基因的功能,此外还提供元数据metadata支持和数据可视化的新途径。 如何开始: 初学者在学习了一个小时教程后就能很容易运行这一软件了,之后就是三个小时的软件演示。 目前还开发了一种新的运算方法(尚未发表),这种方法被称为DIAMOND,能将这种alignment步骤加速1.6万倍。一般来说通过BLAST运行一百万个读长需要44天。新技术开发者,来自德国图宾根大学的生物信息学家Daniel Huson说,“而这种新方法只需要四分钟,”他已经开始重新编写MEGAN,令其与DIAMOND同步。 注意事项: 费用: 也就是说,只要你有一台40多GB内存的计算机,那么就能进行相关分析。此外需要注意的是这一工具匹配的是KEGG老版本(2011版),由于KEGG目前不再免费,因此如果要用最新版本,就需要花费2,000美元购买。 宏基因组分析比一般的基因组分析需要更多的借助计算机技术,这是因为这分析的是不同的基因组混合物,而不是单纯的同质微生物菌群。由此宏基因组分析也产生了比一般基因组分析更多的数据,这也是这一研究领域的一大挑战。 随着过去几年间,基因组测序读长越来越长,测序成本越来越低,研究人员已经开始雄心勃勃的编撰复杂微生物菌种,病毒毒株的基因组丰度和变异图谱。这种可以称之为宏基因组的研究方法首先需要从环境中收集这些微生物和病毒的细胞样品,然后进行破碎,将它们的基因组DNA降解成片段,然后通过测序仪进行分析。 宏基因组分析比一般的基因组分析需要更多的借助计算机技术,这是因为这分析的是不同的基因组混合物,而不是单纯的同质微生物菌群。由此宏基因组分析也产生了比一般基因组分析更多的数据,这也是这一研究领域的一大挑战,来自加州大学的进化生物学家 Jonathan Eisen表示。 近期The Scientist杂志汇总了一些用于微生物基因组数据分析的新技术方法与软件: 系列内容:微生物与病毒宏基因组最新技术方法汇总 Kraken Kraken是2013年9月推出的,这种软件能从宏基因组样品中发现短的DNA序列,并且能以相似的精确度,但比传统的程序,如megaBLAST等更快的速度进行比对(Genome Biol, doi:10.1186/gb-2014-15-3-r46, 2014)。这种快速来自于Kraken的一种特殊数据库,用以预先计算哪些基因组中包含有特殊k-mer(一种短小的DNA序列)。 软件开发者,约翰霍普金斯大学医学院研究生Derrick Wood表示,“这是一个big idea”,“如果你能在一个阅读框中发现单个k-mers,并非常快的计算出它们可能出现在哪些基因组中,那么就能进行分类计算。 这取决于样品中的成分,利用Karen能完成70%-90%的阅读框分类,这是一般分类的比例(如PhymmBL)。相比之下,其它程序则是通过更小的数据库加速分类,但这样的话分类的比例就只有10%左右。 如何开始: 在进行分类后,研究人员可以通过一种称为Kraken-report的程序获得一个简单的文本结果,比如某个特殊物种中有多少阅读框。如果要得到更加复杂的数据,那么可以采用Krona,这是宏基因组数据的一种浏览器。 在这个过程中,你不过过多的了解这一程序是如何运行的,至今为止用户都表示运行结果良好。 费用: MG-RAST MG-RAST是2007年被开发出来的,这是一种能帮助研究人员获得宏基因组比对和功能性分析的服务器。用户能选择公布他们的研究结果,或者他人共享(私下)。这种工具包括众多数据质量readouts,如 DRISEE,采用人工复制阅读框来预测测序错误百分比,以及核苷酸位置直方图(histograms)。 如何开始: 费用: 注意事项: 来源:生物通 |