立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索
小桔灯网 门户 资讯中心 技术杂谈 查看内容

三代测序数据漫谈

2017-9-15 01:05| 编辑: 小桔灯网| 查看: 3063| 评论: 0|来源: 生信者言

摘要: 三代明星:PacBio及其序列数据再来看看江湖呼声渐涨的三代测序技术。目前三代测序市场上,表现最为抢眼的莫过于以PacBio公司的SMRT和Oxford Nanopore Technologies为代表的纳米孔单分子测序技术。与前两代相比,三代 ...

三代明星:PacBio及其序列数据


再来看看江湖呼声渐涨的三代测序技术。目前三代测序市场上,表现最为抢眼的莫过于以PacBio公司的SMRT和Oxford Nanopore Technologies为代表的纳米孔单分子测序技术。与前两代相比,三代测序最为核心的特点就是单分子测序,测序过程无需进行PCR扩增。


PacBio SMRT技术其实也应用了边合成边测序的思想,并以SMRT芯片为测序载体。测序时,不需要对目标DNA进行PCR扩增,而是直接在目标片段两端加上两个发卡结构的接头,形成一个连续的环状结构。也因此,PacBio系统在读长上显示了极大的优势。目前比较受市场热捧的三代测序是PacBio的RSⅡ和2015年推出的Sequel。


PacBio下机产生的序列文件以HDF5格式存储。可以采用h5dump命令来查看H5文件内容。


1. 查看碱基序列:

h5dump –d /PulseData/BaseCalls/Basecall raw.h5 > Basecall.info ,文件内容如下:

DATA {(0): 67, 71,67, 67, 65, 71, 67, 71, 65, 65, 84, 71, 71, 67, 84, 71, 67, (17): 71, 71, 71,71, 65, 65, 71, 67, 65, 71, 65, 65, 65, 84, 84, 65, 84, (34): 67, 67, 71, 84,65, 65, 65, 67, 84, 71, 84, 84, 71, 67, 84, 71, 67,

该文件采用的ASCII码的编码方式存储的碱基序列:A=> 65, C=>67, G=>71, T=>84。


2. 查看碱基质量值:

h5dump -d /PulseData/BaseCalls/QualityValue raw.h5 > Basecall.quality,

文件内容如下,其碱基质量值采用与illumina技术一致:

DATA {(0): 51, 44,42, 44, 24, 24, 51, 51, 51, 51, 50, 20, 20, 20, 50, 51, 51, (17): 48, 48, 48,47, 9, 9, 9, 51, 51, 46, 31, 31, 31, 31, 44, 51, 51, 30, (35): 30, 51, 51, 7,7, 7, 7, 51, 51, 44, 44, 44, 51, 51, 50, 27, 27, 26,


长到天际:Nanopore及其序列数据


Oxford Nanopore 公司2005年在英国牛津成立,其运用的纳米孔测序技术使得DNA链在一个单通道中就能够被解码和识别,而不需要将长链打断成小短链。由于实现了DNA聚合酶内在自身的延续性和反应速度,Nanopore读长更长速度更快;同时由于能直接检测每个碱基的特征性电流,因而能对修饰碱基进行测序,对于表观遗传学研究具有极高的价值;因此,这款长到天际的测序仪,非常有潜力横扫当前测序格局。


2014年春天推出U盘大小的便携式MinION测序仪,仪器售价仅需$1000,据官网报道最长Reads可长达960 Kb,2014年10月推出平板大小的台式测序仪PromethION,有48个flow cell,可以单独运行也可以并行,2017年推出桌面式GridION X5测序仪。


Nanopore目前还主要在测试和生产阶段,尚未大规模应用,其应用主要体现在微生物等小基因组生物上。推出至今,其最亮眼的表现莫过于2014年西非埃博拉病毒爆发,MinION以最快的速度破译病毒序列,名噪一时。随着独特的纳米孔技术的成熟和完善,未来在即时检测、太空应用、大众检测等方面会有很大的想象空间。


Nanopore测序得到的序列文件的格式基础也是HDF5(https://support.hdfgroup.org/HDF5/),下机产生后缀为Fast5的序列文档。Fast5文件可经由Poretools软件(http://poretools.readthedocs.io/en/latest/)转换为Fastq文件或Fasta,然后进行后续数据分析。


① 应用Poretools将fast5转换为fastq,示例见:

http://poretools.readthedocs.io/en/latest/content/examples.html#poretools-fastq


② 应用Poretools将fast5转换为fasta,示例见:

http://poretools.readthedocs.io/en/latest/content/examples.html#poretools-fasta


总结一下,在测序市场中,一代测序因其准确度高,仍作为突变检测、单菌鉴定等的金标准而存在;以illumina HiSeq和MiSeq为代表的二代测序势头强劲,主打低成本和高通量,2017新机型NovaSeq更宣称已将测序成本降至百美金;科研市场上三代测序最常见的莫过于PacBio,辅以冉冉上升的新星Nanopore等,主打长读长策略,直击二代测序碎片化序列的软肋,在基因组de novo上表现不俗,错误率较高,但可被矫正。


回到我们今天的主题---数据格式上,一代测序主要是读取峰图文件后转化为Fasta格式;二代测序中illumina原始读取数据为BCL,下游分析中转化为Fastq格式;454下机序列为SFF格式,后续分析中转化为Fna-Qual格式使用;Ion Torrent下机序列为WELLS格式,下游分析中转化为Bam格式;三代测序的两大主流系统PacBio和Nanopore,其下机数据都以HDF5格式为基础,后续转化为Fastq格式进行下游分析。


不管一代、二代还是三代的数据分析中,原始下机数据都以二进制文件为主,原因无他,相比于文本文件,二进制文件在存储上更为经济集约。二进制文件本身是难于阅读的,并且很难改动,所以,我们可以乐观的认为,二进制文件造假的可能性是很低的。二进制的数据拿到之后,我们想要把数据转换成正常人能看懂的格式,这时身为文本文件的Fastq就应运而生了,Fastq文件会被用于质控及比对等后续分析。


总之,Fastq是当前最为主流认可的序列数据存储格式,不管哪一代测序技术,什么样的原始数据,都免不了要打上Fastq格式的烙印,Fastq文件的格式及使用已经成为高通量测序学习中当仁不让的第一站。

 

声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部