立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索
小桔灯网 门户 资讯中心 技术杂谈 查看内容

NGS检测流程--上机测序

2024-12-19 13:30| 编辑: 归去来兮| 查看: 1158| 评论: 0|来源: Precision Medicine Center

摘要: 上机测序决定了文库信息如何转化为高精度、可解析的数据信号



在NGS检测流程中,上机测序决定了文库信息如何转化为高精度、可解析的数据信号。通过自动化高通量测序系统,DNA片段被逐一解析、转化成碱基序列,构建完整的基因图谱。该环节不仅涉及平台特定的化学反应与信号采集机制,还需要在测序过程中进行实时质量控制,以确保输出数据的准确性与一致性。了解测序运行参数设置、实时质量控制、数据保存与初步分析,是保障测序成功的关键。


01 上机原理与注意事项


步骤原理与注意事项
测序运行参数设置

一、Illumina平台测序参数设置


1. Run Name(运行名称):通常录入上机的日期或项目编号,如20241115_Run1。

2. Library ID(文库编号)与Pooling文库号或样本批次编号相关联,如Lib_Pool1_SampleA

3. Recipe(测序方案):选择合适的测序流程模板,如NextSeq HighNovaSeq S4等。

4. Read Type(读取类型):选择单端(Single-End, SE)双端(Paired-End, PE)测序。

5. Read Length(读取长度):

  • Index 1和Index 2:设置条形码的读取长度,通常为8 bp10 bp
  • Read 1 和Read 2:根据应用需求设置,如150 bp × 2(双端150 bp)。

6. Custom Primers(自定义引物):仅在特殊应用(如靶向测序、自定义引物扩增)时启用并加载自定义引物文件。

7. Output Folder(输出目录):指向服务器的存储目录,如/data/sequencing_runs/20241115_Run1/。



二、MGI平台测序参数设置


1. RFID 自动识别测序试剂槽、清洗试剂槽及载片 ID显示在相应的文本框中;

2. 测序方案设置

  • 一链读长和二链读长:单端(SE)或双端(PE)测序的读取长度。例如,PE100表示双端测序,每端读取100 bp。

  • Barcode 读长:通常为8-10 bp,用于区分不同样本。

  • DualBarcode 读长:如需使用双标签以增加样本识别能力,可设置 DualBarcode 读长。常用于多样本或复杂样本池化的实验。

  • 暗反应读长:暗反应是指进行生化反应但不采图的 cycle。设置一链和二链的暗反应读长可以减少数据量,但保留必要的化学反应步骤。

3. 选择相应的标签序列:根据试剂盒或应用要求选择适合的 Barcode 和 DualBarcode 序列,以确保样本间的唯一性。

4. 选择Barcode 和 DualBarcode 是否拆分:如果数据分析需要单独分析不同 Barcode 或 DualBarcode 的数据,可以选择拆分,否则可以选择不拆分。


实时质量控制
一、Illumina平台的实时监控

工具与方法


1. Sequencing Analysis Viewer (SAV):Illumina官方提供的软件工具,用于实时监控和分析测序运行数据。SAV显示的数据来自测序仪生成的实时文件(如InterOp文件)。


2. BaseSpace Sequence Hub:可选的云平台,支持远程实时查看运行状态和数据。


关键数据


  1. 信号强度(Intensity)

    • 每个碱基循环的平均荧光强度。
    • 强度较高且均匀表明测序化学反应效率正常。
    • 如果信号强度过低,可能是试剂问题、焦点偏移或仪器故障。
  2. 碱基识别率(Phasing/Pre-phasing)

    • 表示簇中碱基的同步性。
    • Phasing
      :延迟一个循环的碱基占比。
    • Pre-phasing
      :提前一个循环的碱基占比。
    • 这两个指标应尽可能低(<1%为理想值)。
  3. 错误率(Error Rate)

    • 每个循环的测序错误率,基于控制DNA(PhiX)计算。
    • 错误率过高表明测序化学、焦点或簇密度问题。
  4. Q分值(Quality Score)分布

    • Q30分值(碱基识别的准确率 ≥99.9%)的比例是重要指标。
    • 通常Q30 ≥ 85%为合格。
  5. 簇密度和占比(Cluster Density and Percent Occupancy)

    • 簇密度表明反应池的簇形成情况。
    • 占比(Occupied Wells)反映有效簇的比例,过低或过高都会影响数据质量。


二、MGI平台的实时监控


工具与方法


  • MGI Online Software Suite:MGI提供的本地或远程监控工具,可以实时查看测序运行状态和关键指标。
  • 实时图像与数据分析模块:MGI测序仪直接通过系统界面提供实时数据和图像监控。


关键数据


  1. 信号强度(Signal Intensity)

    • 表示荧光探针信号的平均强度。
    • 如果信号较弱,可能是试剂反应效率或焦点调整的问题。
  2. 碱基识别率(Decoding Efficiency)

    • 反映每个循环的碱基解码准确性。
    • 与Illumina类似,通过phasing和pre-phasing值评估解码同步性。
  3. 错误率(Mismatch Rate)

    • 测序过程中碱基匹配的错误比例。
    • 错误率较高可能与试剂质量、DNB密度、图像处理算法相关。
  4. DNB密度与分布

    • 测序芯片上DNB的加载密度和分布情况。
    • 过高或过低的DNB密度都会影响测序质量。
  5. 实时成像质量

    • 系统提供的实时成像图像,显示DNB上的荧光信号分布。
    • 不均匀信号可能提示加载问题或试剂扩散不均。


三、 注意事项和优化建议


  • 环境因素监控:确保温度、湿度在测序仪建议的范围内,避免因环境波动影响数据质量。
  • 试剂使用:定期检查试剂的存储和混合均匀性,避免试剂降解导至信号偏弱。
  • 仪器校准:确保测序仪光学系统和移动部件定期维护和校准。
  • 数据实时解读:若发现关键数据异常,应暂停运行或调整参数,避免后续数据质量问题扩大。
数据保存与初步分析

测序完成后,数据的保存和初步分析是确保结果完整性和可靠性的关键步骤。这包括原始数据的存储、基础质量评估(QC)、数据整理和初步分析。


一、原始数据的存储:测序仪生成的原始数据包括原始图像、信号强度文件以及初步的碱基调用结果。这些数据需要按科学规范进行保存,确保后续分析的可追溯性。


数据类型与文件结构

  • 原始图像文件
    光学系统采集的荧光图像(通常保存为二进制格式,仅在特殊情况下使用)。
  • 中间文件
    • Illumina平台:包含.bcl文件(Binary Base Call),用于存储每个簇的碱基调用及其质量分数。
    • MGI平台:生成的.fastq文件直接包含碱基序列和质量分数。
  • 结果文件
    • FASTQ文件:通用的碱基序列和质量分数存储格式,是大多数后续分析的输入文件。
    • InterOp文件(Illumina):存储运行日志、簇密度、信号强度等数据,用于质量评估。

数据保存的注意事项

  1. 存储设备与路径
    • 使用高性能存储系统(如NAS或SAN)以满足高数据量的读写需求。
    • 目录结构需清晰,例如按测序日期、实验编号、样本编号进行归档。
  2. 冗余备份
    • 采用本地和远程双重备份策略,防止单点故障导至数据丢失。
    • 可使用RAID(冗余阵列)或云存储服务。
  3. 命名规范
    • 确保文件和目录的命名一致、清晰,便于查找。例如:RunID_SampleID_Lane_Read.fastq.gz
  4. 数据安全性
    • 设置严格的访问权限,避免数据泄露。
    • 使用加密存储和传输敏感数据。


二、 数据初步分析的原理与流程


基础质量评估(QC)

  • 原理:通过统计分析测序数据的质量指标,判断是否符合分析标准。
  • 常用工具
    • FASTQC:检测碱基质量分布、GC含量分布、序列重复率等。
    • MultiQC:整合多个样本的QC结果,生成可视化报告。
  • 关键指标
    1. Q分值分布:衡量碱基识别的准确性,Q30分值比例是常用标准(≥85%为合格)。
    2. GC含量分布:是否与物种基因组的预期一致。
    3. 序列重复率:检测序列是否均一,避免偏好性扩增。
    4. 接头序列污染:查看是否存在未剪切的接头序列。

数据整理与清洗

  • 去接头与低质量序列:使用工具(如Trimmomatic或Cutadapt)移除接头序列、低质量碱基和过短的片段。
  • 去除污染序列:通过对比(如使用BLAST或Kraken)移除可能来自污染源的序列。
  • 结果存储:清洗后的数据需保存为新的FASTQ文件,并按样本编号进行归档。

数据去重(可选)

  • 原理:去除PCR扩增过程中产生的冗余序列,避免对下游分析造成偏差。
  • 实现:使用工具(如Picard或SAMtools)标记和去除重复序列。


三、注意事项


  1. 数据完整性检查:保存和传输数据时,使用MD5校验码验证数据文件是否完整。
  2. 质量评估后再进行后续分析:如果发现质量问题(如接头污染过多或低Q值比例高),需重新优化数据处理或重新进行实验。
  3. 分析步骤标准化:制定明确的标准操作流程(SOP),确保每次数据处理的一致性。
  4. 跨平台兼容性:Illumina平台数据多以BCL格式保存,需先转化为FASTQ格式;MGI平台直接生成FASTQ数据,但可能包含特定字段,需注意兼容性。


02 测序数据质量评估重要指标


指标含义评估标准注意事项
数据量
测序生成的总数据量,以“Gb”为单位
与实验设计相关,如全基因组测序需高数据量,目标区域捕获测序需低数据量
数据量不足可能影响覆盖度;过多则浪费资源。
Q30值
碱基质量值 >30 的比例,错误率小于 0.1%
Illumina
 和MGI 平台一般要求 Q30 > 85%
Q30值低可能由试剂、文库或设备问题引起。
碱基错误率
碱基识别的错误比例
全基因组测序需 <1%,目标区域测序需更低
高错误率可能由聚合酶性能或流程问题引起。
GC含量分布
目标序列中G、C碱基的比例
一般为40%-60%,应与参考基因组一致
偏差可能提示文库偏好性或捕获效率问题。
序列质量分布
每个读长位置的碱基质量值分布
碱基质量值应均匀分布
前端或末端质量下降可能影响后续分析。
碱基组成
各碱基(A、T、G、C)的比例分布
应随机分布,接近25%
偏差可能提示污染或文库构建异常。
目标区域覆盖度
目标区域被测序的比例
全基因组测序需 ≥30X;目标区域测序需 ≥90% 覆盖至少10X
覆盖度不足可能由捕获效率低或文库复杂度不足引起。
均一性
目标区域中测序深度的均匀程度
80%-90% 的目标区域深度达到平均深度的20%-50%
均一性差会影响局部区域数据完整性和变异检测灵敏度。
重复率
文库中重复序列的比例
应 <20%-30%
高重复率可能表明文库复杂度低或样本起始量不足。
插入-缺失错误率
测序中由于聚合酶错误导至的碱基插入或缺失比例
通常要求 <0.01%
Indel错误率高可能由聚合酶性能或数据分析软件问题引起。
聚类效率
有效聚合簇数量及通过质量过滤的读数比例
Illumina平台推荐聚合簇密度 800-1200 K/mm²;通过过滤读数比例 >80%
聚合簇密度过低浪费数据量,过高则导至簇重叠和质量下降。
多重标签识别
多重标签测序中样本间的交叉污染或标签识别错误比例
Index Hopping比例通常 <0.5%
交叉污染可能由文库混样或试剂污染引起。


-END-


作者简介:涓涓细流,一个想要为NGS检验工作人员做点事的人,希望以此提高大家的专业水平,降低检验质量事故发生的概率,为患者服务。纤纤不绝薄成林,涓涓不止江河生!





声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部