微生物与病毒宏基因组最新技术方法汇总

千姿百态 · 发表于 2014-8-18 06:30

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

随着过去几年间，基因组测序读长越来越长，测序成本越来越低，研究人员已经开始雄心勃勃的编撰复杂微生物菌种，病毒毒株的基因组丰度和变异图谱。这种可以称之为宏基因组的研究方法首先需要从环境中收集这些微生物和病毒的细胞样品，然后进行破碎，将它们的基因组DNA降解成片段，然后通过测序仪进行分析。

宏基因组分析比一般的基因组分析需要更多的借助计算机技术，这是因为这分析的是不同的基因组混合物，而不是单纯的同质微生物菌群。由此宏基因组分析也产生了比一般基因组分析更多的数据，这也是这一研究领域的一大挑战，来自加州大学的进化生物学家 Jonathan Eisen表示。

不仅科学家们希望能了解微生物的特殊生存环境——考虑到这些微生物平均99%都没有被体外培养过，要做到这一点并不容易，而且他们也希望能了解这些微生物的功能，以及微生物相互之间如何竞争作用的。“测序成本不高，但是这并不是说简单把一个菌群放入测序仪中，就可以得到结果了，”Eisen说。

科学家们尝试利用一些改进的样品处理方法或分析方法，进行宏基因组复杂分析，尤其是一些计算机方法不断更新，能帮助研究人员们处理这些不断变大和变化的数据集。

近期The Scientist杂志汇总了一些用于微生物基因组数据分析的新技术方法与软件：

MEGAN5
ab.inf.uni-tuebingen.de/software/megan5

MEGAN主要用于MEtaGenome ANalyzer，最初是在2007年开发出来，用于识别长毛猛犸象骨中DNA测序研究的微生物污染。MEGAN5是去年发布的最新版本，除了可以帮助进行分类分析，也可以快速比较多个数据集，区分宏基因组中基因的功能，此外还提供元数据metadata支持和数据可视化的新途径。

如何开始：
在将数据导入MEGAN之前，研究人员需要通过BLAST，或相似的程序比对参考数据，对齐基因组数据的长度，这是这种分析最需要计算机帮助的一个部分。得到的数据导入到MEGAN（转化成MEGAN文件），然后研究人员就会看到这些数据读长已经与NCBI分类节点对齐。MEGAN包含了三个已建立的分析数据库：KEGG （Kyoto Encyclopedia of Genes and Genomes，京都基因和基因组百科全书）、SEED和 COG（Clusters of Orthologous Groups of proteins），这些数据库采用了不同方法进行基因功能分类。

初学者在学习了一个小时教程后就能很容易运行这一软件了，之后就是三个小时的软件演示。

目前还开发了一种新的运算方法（尚未发表），这种方法被称为DIAMOND，能将这种alignment步骤加速1.6万倍。一般来说通过BLAST运行一百万个读长需要44天。新技术开发者，来自德国图宾根大学的生物信息学家Daniel Huson说，“而这种新方法只需要四分钟，”他已经开始重新编写MEGAN，令其与DIAMOND同步。

注意事项：
相似工具：Qiime（发音为“chime”）与MEGEN功能相似，不过能帮助研究人员进行更为复杂的分析，但需要注意的是这种工具基于命令行，因此相比于MEGAN，生物学家更难以学会。

费用：
目前对科研目的用途免费开发。

也就是说，只要你有一台40多GB内存的计算机，那么就能进行相关分析。此外需要注意的是这一工具匹配的是KEGG老版本（2011版），由于KEGG目前不再免费，因此如果要用最新版本，就需要花费2,000美元购买。

宏基因组分析比一般的基因组分析需要更多的借助计算机技术，这是因为这分析的是不同的基因组混合物，而不是单纯的同质微生物菌群。由此宏基因组分析也产生了比一般基因组分析更多的数据，这也是这一研究领域的一大挑战。

随着过去几年间，基因组测序读长越来越长，测序成本越来越低，研究人员已经开始雄心勃勃的编撰复杂微生物菌种，病毒毒株的基因组丰度和变异图谱。这种可以称之为宏基因组的研究方法首先需要从环境中收集这些微生物和病毒的细胞样品，然后进行破碎，将它们的基因组DNA降解成片段，然后通过测序仪进行分析。

宏基因组分析比一般的基因组分析需要更多的借助计算机技术，这是因为这分析的是不同的基因组混合物，而不是单纯的同质微生物菌群。由此宏基因组分析也产生了比一般基因组分析更多的数据，这也是这一研究领域的一大挑战，来自加州大学的进化生物学家 Jonathan Eisen表示。

近期The Scientist杂志汇总了一些用于微生物基因组数据分析的新技术方法与软件：

系列内容：微生物与病毒宏基因组最新技术方法汇总

Kraken
ccb.jhu.edu/software/kraken
分类分析

Kraken是2013年9月推出的，这种软件能从宏基因组样品中发现短的DNA序列，并且能以相似的精确度，但比传统的程序，如megaBLAST等更快的速度进行比对（Genome Biol, doi:10.1186/gb-2014-15-3-r46, 2014）。这种快速来自于Kraken的一种特殊数据库，用以预先计算哪些基因组中包含有特殊k-mer（一种短小的DNA序列）。

软件开发者，约翰霍普金斯大学医学院研究生Derrick Wood表示，“这是一个big idea”，“如果你能在一个阅读框中发现单个k-mers，并非常快的计算出它们可能出现在哪些基因组中，那么就能进行分类计算。

这取决于样品中的成分，利用Karen能完成70%-90%的阅读框分类，这是一般分类的比例（如PhymmBL）。相比之下，其它程序则是通过更小的数据库加速分类，但这样的话分类的比例就只有10%左右。

如何开始：
第一步是要建立一个数据库，或从Kraken网站下载一个小数据库（MiniKraken DB，由RefSeq中的完整细菌、古细菌和病毒基因组构建）。研究人员可以添加他们觉得合适的特定基因组，接下来就可以点击Kraken进行阅读框文件（或组装片段）分析。

在进行分类后，研究人员可以通过一种称为Kraken-report的程序获得一个简单的文本结果，比如某个特殊物种中有多少阅读框。如果要得到更加复杂的数据，那么可以采用Krona，这是宏基因组数据的一种浏览器。

在这个过程中，你不过过多的了解这一程序是如何运行的，至今为止用户都表示运行结果良好。

费用：
免费，软件资源库GitHub（github.com）上可以提供源代码。

MG-RAST
metagenomics.anl.gov
分类、功能分析及比较分析；数据共享

MG-RAST是2007年被开发出来的，这是一种能帮助研究人员获得宏基因组比对和功能性分析的服务器。用户能选择公布他们的研究结果，或者他人共享（私下）。这种工具包括众多数据质量readouts，如 DRISEE，采用人工复制阅读框来预测测序错误百分比，以及核苷酸位置直方图（histograms）。

如何开始：
登陆MG-RAST 网站，进行注册，并上传数据。或者也可以使用一些界面(如API) 来编写自己的代码——这是全开放源代码。“如果你是位生物信息学家，会发现这很容易。如果你是一名生物学家，那么就可能需要一些训练，”来自阿贡国家实验室的开发者Folker Meyer表示。

费用：
免费，前提是你能忍受等待一周左右的时间。如果要得到立即的答案，那么就需要计算机知识和时间。（新版本很快就会出炉）

注意事项：
虽然所有的算法都是开放源代码，但是如果自己执行计算，就会既昂贵又耗时。一些新用户希望能让他们的学生来运行质控，Meyer说。他建议他们去比较MG-RAST和学生计算的结果，确保结果的可靠性。

来源：生物通

图文播报

[技术杂谈] 微生物与病毒宏基因组最新技术方法汇总

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心