NGS(Next-generation sequencing)也叫高通量测序,相对于一代测序而言,可以一次并行地对几十万到几百万条的DNA分子进行序列读取,提供丰富的遗传信息。针对20个以上的靶点,NGS更加经济快速。 通过NGS数据可以获得基因组的序列信息并分析突变。但是相比Sanger测序直观的峰图和较高的测序准确度,NGS数据量庞大,且测序准确度较Sanger测序的更低,因此建立标准的质控流程,确保用于后续分析序列的可靠性就非常重要。本文将对目前通用的QC指标进行解读。 什么是Q值? 在高通量测序中,每个被测到的碱基都会有一个质量值打分,称为Q值(Qphred),体现测序过程中碱基识别的可信度和错误率(p)。计算方法如下:Qphred = -10log10p,通过此公式可以看出,Q值越大,表示识别错误的可能性越小,可信度就越高。 在数学上,Phred质量分值的定义是Q= -10 log10p,其中P是碱基检出错误的概率。如下表1所示,随着Phred分值的增加,碱基检出的置信度也会以非线性方式增加。在高通量测序中,普遍使用Q20作为碱基过滤的阈值,而Q30也被经常用来评价测序的质量。 需要注意的是,高通量测序中每测一个碱基都会给出一个对应的质量值,Q20的错误率为1%,Q30的错误率为0.1%。行业中Q20与Q30则表示质量值≧20或30的碱基所占百分比,如转录组中测了10G的数据量,其中有9G的碱基质量值大于或等于20,那么Q20则为90%,同理有9G的碱基质量值大于或等于30,那么Q30则为90%. Q值达不到100%的原因 1. 误差是测序过程本身造成的——例如,噪音或信号功率低; 2. 测序前,样本提取和文库制备将基因组DNA样本转化为片段文库。该过程通常涉及片段化、在每个片段的两端添加特定的接头以及扩增或纯化步骤。一些已发表的论文描述了这些过程可能带来的错误。 3. 建库PCR过程将误差放大,使用PCR-FREE的建库方式可以降低错误率。 |