立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索
小桔灯网 门户 资讯中心 技术杂谈 查看内容

为什么Q30被看作NGS的黄金标准?

2025-5-7 16:14| 编辑: 归去来兮| 查看: 188| 评论: 0|来源: 我是建设者

摘要: 大家似乎只是适应了测序准确率的提升

20世纪80年代末90年代初自动化DNA测序技术(尤其是桑格测序)开始出现。与之而来的是质量评分被引入。

质量评分首次系统地应用于桑格测序,始于1998年华盛顿大学的Phil Green博士和 Brent Ewing 博士开发的Phred评分系统。

Phil Green

Phred质量得分(Q)定义为Q = -10 log(p),其中(p)表示碱基识别错误的概率。例如,Q30分数对应的错误率为 0.1%(千分之一碱基)。

Phred从自动测序仪数据中读取碱基,并为每个碱基读取分配一个错误概率。这量化了每个碱基读取的可信度,使研究人员能够在分析过程中过滤掉低置信度的碱基或读数,提高对准和组装的精度,并且可以量化下游分析(例如变异调用、基因表达)的可靠性。

Phred因具有更高的碱基调用准确率,随后被各大学术和商业测序实验室广泛使用。

为了存储高通量测序技术生成的核苷酸序列及其相关质量评分,FASTQ 文件格式在世纪之交被威康信托桑格研究所的Jim Mullikin创建推出,并逐渐传播开来。FASTQ最初开发为一种标准化的基于文本的格式,在早期的 FASTA 格式的基础上,为每个碱基调用添加了质量评分。由于其简单易用且与生物信息学工具兼容,FASTQ格式后被广泛采用。

21世纪初Roche 4542005年)和Illumina2006年)等NGS测序平台相继出现,由于这些平台的通量和错误率的提高,质量评分变得至关重要,FASTQ也被更多用于管理错误率和读取质量的差异性。

那为什么Q30会被设定为NGS的黄金标准?

Q30意味着测序运行中单个碱基的 Phred 质量评分为 30 或更高(错误率 ≤ 0.1%)。

早期的NGS平台,尤其是Illumina的平台,随着时间的推移,准确性取得了显著的提升。到2010年左右,Illumina的主要测序平台(例如HiSeqMiSeq)在测序运行中始终能够稳定地产生高比例的Q30或更高Q值的碱基读取。

较低的碱基检出准确度(Q20 99%),意味着每100 bp 的测序读取就可能包含一个错误。对于短读长测序来说,当测序质量达到 Q30 时,几乎所有读取都将是完美的。因此,Q30 被认为是新一代测序的质量基准。

Q30 在高准确度和可用数据产量之间取得了平衡,可确保高质量数据,同时保持可用的读取深度。较高的阈值(例如 Q40,准确度99.99%)会丢弃过多的读取,从而降低覆盖率并增加成本,而较低的阈值(例如 Q20,准确度 99%)则有可能在敏感应用中引入错误,增加假阳性变异检出,从而导至结论不准确,并增加验证实验的成本。

这样一来,Q30基本上确保大多数读取对于下游应用而言都是可靠的,而无需过于严格的过滤。对于变异检出(例如 SNP 检测)等应用,高准确率对于区分真实变异与测序错误至关重要,而Q30 评分(准确率 99.9%)可最大程度地减少此类分析中的假阳性。在临床测序中,诊断准确性至关重要,Q30 可确保检测突变或结构变异的可靠结果。对于从头组装或RNA 测序,Q30 质量读取可提高contig形成和基因表达量化的准确性。

随着Illumina逐渐成为NGS市场的主导者,其更多地将Q30作为其测序平台的关键性能指标。他们的市场营销和技术文档经常强调高于Q30的碱基百分比(%Q30≥80%)作为测序运行质量的衡量指标,从而也巩固了Q30作为行业标准的地位。随着Q30 成为跨平台评估运行质量的广泛接受的阈值,其他制造商和生物信息学流程也纷纷效仿,这无疑更近一步加深了Q30的门槛性地位。

某种程度上说,Q30之所以成为标准,与Illumina逐渐成长的技术和行业影响力是脱不开关系的。

然而,虽然Q30 是黄金标准,但具体阈值可能因应用而异。例如,宏基因组学或低覆盖度测序可能允许较低的质量(例如 Q20),而像罕见变异检测这样的超精准应用可能需要Q35 或更高的读取质量。

另一方面,近几年来测序技术的进步突飞猛进,不管是SBS之外的短读长测序技术创新还是纳米孔测序等天然长读长技术的开发和成熟,终端用户对 Q30 的依赖可能会发生变化,新的指标或更高的阈值可能会出现。如之前的文章所说:Q40将是新的Q30

但不可否认但是,即便当下测序的准确率在不断提升(NGS再次成为AGBT的焦点:Q40成为进入门槛...),Q30所带来的传统印象还没有改变。

对于纳米孔测序这样的几十个kb以上的读取来说,经验需求驱动,用户社群依然在追求Q30的目标;对于人类基因组测序来说,大家仍然习惯于30x的短读长测序覆盖度,即便是Q40及高%Q40的读取;大家似乎只是适应了测序准确率的提升,但这对于下游应用来说到底能有什么影响,似乎都还才刚开始摸索...


声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部