立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 3453|回复: 0

[技术杂谈] 基因组二代测序数据的自动化分析流程

[复制链接]
发表于 2014-6-25 08:00 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
来自中国医学科学院,北京协和医学院等处的研究人员设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程通过自动化并行脚本控制流程的高效运行,一站式输出分析结果和报告,简化了数据分析过程中的人工操作,大大提高了运行效率。相关文章公布在《遗传》杂志上。

二代测序技术的发展对测序数据的处理分析提出了很高的要求。目前二代测序数据分析软件很多,但是绝大多数软件仅能完成单一的分析功能(例如:仅进行序列比对或变异读取或功能注释等) ,如何能正确高效地选择整合这些软件已成为迫切需求。
来自中国医学科学院,北京协和医学院等处的研究人员设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程通过自动化并行脚本控制流程的高效运行,一站式输出分析结果和报告,简化了数据分析过程中的人工操作,大大提高了运行效率。相关文章公布在《遗传》杂志上。
二代测序技术(Next-generation sequencing)大幅度降低了测序的时间和成本,使得大规模测序逐渐成为常规的实验室研究和临床检测手段。测序产生的数据量急剧增加,如何高效地分析这些数据,已成为迫切需要解决的问题。目前,分析序列信息的生物信息学软件纷繁复杂,但基本上每个软件只能完成单一的分析功能,实现一个完整的分析流程则需要对众多软件进行整合,而手动串联的效率往往不尽人意;同时,这些软件需要在Linux工作环境下以命令行运行,要求用户具备较好的计算机背景;另外,即便一些实验室完成了分析流程的构建,他们往往不会公开许多细节,新用户仍然要从头建起。
针对这一问题,研究人员希望能通过构建经典的二代测序数据分析流程,并实现各个环节的高效自动化管理和分析,减轻研究者前期的工作负担,促进相关领域进一步对基因组测序研究项目的顺利开展。
研究人员为此设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程以测序原始序列数据作为输入,调用业界标准的数据处理软件(如:BWA,Samtools,GATK,ANNOVAR 等),最终生成带有相应功能注释、便于研究者进一步分析的变异位点列表。
这一流程通过自动化并行脚本控制流程的高效运行,一站式输出分析结果和报告,简化了数据分析过程中的人工操作,大大提高了运行效率。用户只需填写配置文件或使用图形界面输入即可完成全部操作,为广大研究者分析二代测序数据提供了便利的途径。

目前测序数据处理软件很多,研究人员综合考虑了适用性和效率,整合出了一套标准的数据处理流程。具体来说,获得 FASTQ格式的原始测序数据后,需要数据进行以下处理: (1)使用BWA 软件把这些短序列和参考基因组进行对比,确定短序列在基因组上的位置,把短序列组装成完整的人类参考基因组; (2)使用 Samtools 软件把这些短序列调整成按一定顺序(1-22,X,Y,其他)排列的序列,并进行数据格式的转换; (3)使用 Picard 软件把测序产生的冗余信息和噪声去掉; (4)使用 GATK 寻找样本测序数据与参考基因组的差异,列出这些差异点; (5)使用 Annovar对这些变异位点进行功能注释,得到一个易于理解的变异位点列表。
这一项目成功整合了一系列二代测序数据分析软件,形成了一套经典的数据分析流程。这一流程通过并行化设计和自动化处理,一方面简化了操作成本、缩短了数据分析周期,另一方面也使本流程可以引入更完善的数据校验步骤,增强结果的可信度。
流程针对Illumina 平台双端测序数据开发,满足了大部分处理需求,并对其他用户提供了一个很好的参考,后续研究人员还将根据用户需求对该自动化流程进行持续维护。

随着二代测序技术的逐步发展,二代测序已经广泛应用于科研和临床研究。这一流程提高了二代测序数据分析的入门和运转效率,其必将在二代测序相关基因组学研究中,促进广大科研人员工作的高效进行。

原文检索:
李文轲, 李丰余, 张思瑶, 蔡斌, 郑娜, 聂宇, 周到, 赵倩. 基因组二代测序数据的自动化分析流程[J]. 遗传, 2014, 36(6): 618-624. Wenke Li, Fengyu Li, Siyao Zhang, Bin Cai, Na Zheng, Yu Nie, Dao Zhou, Qian Zhao. Automatic analysis pipeline of next-generation sequencing data. HEREDITAS(Beijing), 2014, 36(6): 618-624.

来源:生物通

楼主热帖
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表