立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索
小桔灯网 门户 资讯中心 企业动态 查看内容

药明康德:二代测序质量太高引发的“甜蜜烦恼”

2014-6-12 22:31| 编辑: 小桔灯网| 查看: 2512| 评论: 0|来源: 莺歌燕舞

摘要: 追求高了还要更高的二代测序数据质量,是药明康德基因中心的客户服务宗旨,其实这也是所有科学家、研究员的愿望。在药明康德,我们投入大量时间、精力和专业知识,深入理解二代测序技术原理,细致用心地完成每个项目 ...

追求高了还要更高的二代测序数据质量,是药明康德基因中心的客户服务宗旨,其实这也是所有科学家、研究员的愿望。在药明康德,我们投入大量时间、精力和专业知识,深入理解二代测序技术原理,细致用心地完成每个项目,使我们的数据质量持续、稳定地保持在高水准。

照说,既然数据质量好,我们和客户都皆大欢喜才是。可是最近,我们却遭遇到了由于数据太好而引起客户疑问的“甜蜜的烦恼”。

这是怎么回事呢?原来,当我们递交数据后,满以为项目顺利结束,没想到却收到完全出乎意料的客户反馈:“数据是不是被删减过?我们要原始数据。”

仔细了解情况以后,我们发觉老师提出这样的疑问题其实也不过分,反而是很自然、也很有道理的。与他们以前从别的实验室拿到的二代测序数据相比,疑问主要有两个:首先,HiSeq 2000测序的数据集,正常情况下会有一些开头和末尾第一个碱基为N的序列,每条lane会有数千至数万条这种序列,除第一个碱基外,后面碱基的Phred score都还比较高,而在我们的数据中,没有这一特征;其次,用HiSeq 2000测定模式生物基因组,然后将测序数据mapping回其本身的基因组,mapping率通常在75%~80%左右,有20~25%的序列是不能mapping回去的,而我们数据的mapping率达到了95%以上。

难怪老师不相信。难怪老师要怀疑数据经过了删减,不是原始数据。

药明康德基因中心的规则就是把原始数据提供给客户。蓦地面对这样的问题,一时间我们还真有点不知道怎么办才好。想来想去,仅仅自己说自己的数据好,说数据没有经过加工和删减,从机器上下来就这么好,说服力不强。我们只好求助原厂,求助Illumina,将不涉及项目保密的资料递交给Illumina生物信息学专家,请他进行验算核实。

Illumina专家行事严谨,处理问题高效。他向我们索要了可以拿到的全套文件,包括SAV数据、config.xml文件以及数据转换合并的脚本等,检查了方方面面,得出结论:这批数据并无遗漏任何tile;除了PF之外,也没有进行其他QC加工。

针对老师提出的上面两点疑问,Illumina专家既提供了他的看法,并且还进一步向我们提出了一些老师没有想到的问题。这些解答和问题,值得我们细细体会,深入学习。

首先,“第一个碱基为N”并非正常情况。只有特定版本的HCS软件,比如说v2.0.5,由于软件存在bug,才可能会出现第一或者倒数第一个碱基为N的序列。也就是说,这是软件运算的问题,测序没有问题,而且还不一定每次都出现。

我们用的正是v2.0.5的HCS软件。既然数据中没有N,那是不是我们在测序的时候增加了循环次数,从而规避了这个问题呢?不是的。药明康德基因中心严格执行标准操作规程,不增加额外的循环。比如,合同规定进行2X100个循环的Paired-End测序,我们就测序2X101个循环。多出来一个循环是行业标准做法,也是Illumina官方建议的;除此之外,不再增加循环次数,不做2X102个或更多个循环。

另外,“每条序列的前面几个碱基的质量评分很低”也不是一定的。如果文库的碱基复杂度高,簇密度又控制得好,则前面几个碱基的质量评分也可以达到比较高的数值。碱基质量,包括前几个碱基的质量评分高低,与文库构建的好坏有关,比如试剂的质量和操作水准;也与软件进行数据分析的参数估算有关,比如簇密度和碱基复杂度。

药明康德基因中心并不追求前面几个碱基的质量评分,根本不关心它们是高是低,完全没有把它们看成是评价一个测序好坏的指标。但是我们的确在从文库构建到上机测序等各个环节都下了大功夫,积累了丰富的经验。测序数据质量高,其实得益于此。

第三,提高碱基质量评分,还有一个办法是修改recipe,改变实验流程。不过,药明康德基因中心的企业文化是严格执行SOP,我们不修改recipe。

最后,测序数据mapping率太高的问题,其实不需要我们站出来饶舌。出于药明康德全公司范围的严格的IP保护政策,我们在开展项目时遵循“最少信息原则”,根本不知道此客户的样本来自何种生物,因此也没有可能对数据进行针对性的加工,来提高mapping率。正如Illumina专家所指出的,mapping率高低与数据质量有关,也受比对方法、比对参数前后是否有差异、或者是否使用了不同版本的参考序列等因素影响。


来源:药明康德陈云地


声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。
发表评论

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部