在NGS检测流程中,上机测序决定了文库信息如何转化为高精度、可解析的数据信号。通过自动化高通量测序系统,DNA片段被逐一解析、转化成碱基序列,构建完整的基因图谱。该环节不仅涉及平台特定的化学反应与信号采集机制,还需要在测序过程中进行实时质量控制,以确保输出数据的准确性与一致性。了解测序运行参数设置、实时质量控制、数据保存与初步分析,是保障测序成功的关键。
01 上机原理与注意事项
步骤 | 原理与注意事项 | 测序运行参数设置 | 一、Illumina平台测序参数设置
1. Run Name(运行名称):通常录入上机的日期或项目编号,如20241115_Run1。 2. Library ID(文库编号)与Pooling文库号或样本批次编号相关联,如Lib_Pool1_SampleA 。 3. Recipe(测序方案):选择合适的测序流程模板,如NextSeq High 、NovaSeq S4 等。 4. Read Type(读取类型):选择单端(Single-End, SE)或双端(Paired-End, PE)测序。 5. Read Length(读取长度): - Index 1和Index 2:设置条形码的读取长度,通常为
8 bp 或10 bp 。 - Read 1 和Read 2:根据应用需求设置,如
150 bp × 2 (双端150 bp)。
6. Custom Primers(自定义引物):仅在特殊应用(如靶向测序、自定义引物扩增)时启用并加载自定义引物文件。 7. Output Folder(输出目录):指向服务器的存储目录,如/data/sequencing_runs/20241115_Run1/。
二、MGI平台测序参数设置
1. RFID 自动识别测序试剂槽、清洗试剂槽及载片 ID并显示在相应的文本框中; 2. 测序方案设置 一链读长和二链读长:单端(SE)或双端(PE)测序的读取长度。例如,PE100表示双端测序,每端读取100 bp。 Barcode 读长:通常为8-10 bp,用于区分不同样本。 DualBarcode 读长:如需使用双标签以增加样本识别能力,可设置 DualBarcode 读长。常用于多样本或复杂样本池化的实验。 暗反应读长:暗反应是指进行生化反应但不采图的 cycle。设置一链和二链的暗反应读长可以减少数据量,但保留必要的化学反应步骤。
3. 选择相应的标签序列:根据试剂盒或应用要求选择适合的 Barcode 和 DualBarcode 序列,以确保样本间的唯一性。 4. 选择Barcode 和 DualBarcode 是否拆分:如果数据分析需要单独分析不同 Barcode 或 DualBarcode 的数据,可以选择拆分,否则可以选择不拆分。
| 实时质量控制 | 工具与方法
1. Sequencing Analysis Viewer (SAV):Illumina官方提供的软件工具,用于实时监控和分析测序运行数据。SAV显示的数据来自测序仪生成的实时文件(如InterOp文件)。
2. BaseSpace Sequence Hub:可选的云平台,支持远程实时查看运行状态和数据。
关键数据
信号强度(Intensity): - 如果信号强度过低,可能是试剂问题、焦点偏移或仪器故障。
碱基识别率(Phasing/Pre-phasing): 错误率(Error Rate): - 每个循环的测序错误率,基于控制DNA(PhiX)计算。
Q分值(Quality Score)分布: - Q30分值(碱基识别的准确率 ≥99.9%)的比例是重要指标。
簇密度和占比(Cluster Density and Percent Occupancy): - 占比(Occupied Wells)反映有效簇的比例,过低或过高都会影响数据质量。
二、MGI平台的实时监控
工具与方法
- MGI Online Software Suite:MGI提供的本地或远程监控工具,可以实时查看测序运行状态和关键指标。
- 实时图像与数据分析模块:MGI测序仪直接通过系统界面提供实时数据和图像监控。
关键数据
信号强度(Signal Intensity): - 如果信号较弱,可能是试剂反应效率或焦点调整的问题。
碱基识别率(Decoding Efficiency): - 与Illumina类似,通过phasing和pre-phasing值评估解码同步性。
错误率(Mismatch Rate): - 错误率较高可能与试剂质量、DNB密度、图像处理算法相关。
DNB密度与分布: 实时成像质量: - 系统提供的实时成像图像,显示DNB上的荧光信号分布。
三、 注意事项和优化建议
- 环境因素监控:确保温度、湿度在测序仪建议的范围内,避免因环境波动影响数据质量。
- 试剂使用:定期检查试剂的存储和混合均匀性,避免试剂降解导至信号偏弱。
- 仪器校准:确保测序仪光学系统和移动部件定期维护和校准。
- 数据实时解读:若发现关键数据异常,应暂停运行或调整参数,避免后续数据质量问题扩大。
| 数据保存与初步分析 | 测序完成后,数据的保存和初步分析是确保结果完整性和可靠性的关键步骤。这包括原始数据的存储、基础质量评估(QC)、数据整理和初步分析。
一、原始数据的存储:测序仪生成的原始数据包括原始图像、信号强度文件以及初步的碱基调用结果。这些数据需要按科学规范进行保存,确保后续分析的可追溯性。
数据类型与文件结构
- 原始图像文件光学系统采集的荧光图像(通常保存为二进制格式,仅在特殊情况下使用)。
- 中间文件
- Illumina平台:包含
.bcl 文件(Binary Base Call),用于存储每个簇的碱基调用及其质量分数。 - MGI平台:生成的
.fastq 文件直接包含碱基序列和质量分数。
- 结果文件
- FASTQ文件:通用的碱基序列和质量分数存储格式,是大多数后续分析的输入文件。
- InterOp文件(Illumina):存储运行日志、簇密度、信号强度等数据,用于质量评估。
数据保存的注意事项
- 存储设备与路径
- 使用高性能存储系统(如NAS或SAN)以满足高数据量的读写需求。
- 目录结构需清晰,例如按测序日期、实验编号、样本编号进行归档。
- 冗余备份
- 采用本地和远程双重备份策略,防止单点故障导至数据丢失。
- 命名规范
- 确保文件和目录的命名一致、清晰,便于查找。例如:
RunID_SampleID_Lane_Read.fastq.gz 。
- 数据安全性
二、 数据初步分析的原理与流程
基础质量评估(QC)
- 原理:通过统计分析测序数据的质量指标,判断是否符合分析标准。
- 常用工具
- FASTQC:检测碱基质量分布、GC含量分布、序列重复率等。
- MultiQC:整合多个样本的QC结果,生成可视化报告。
- 关键指标
- Q分值分布:衡量碱基识别的准确性,Q30分值比例是常用标准(≥85%为合格)。
- GC含量分布:是否与物种基因组的预期一致。
- 序列重复率:检测序列是否均一,避免偏好性扩增。
- 接头序列污染:查看是否存在未剪切的接头序列。
数据整理与清洗
- 去接头与低质量序列:使用工具(如Trimmomatic或Cutadapt)移除接头序列、低质量碱基和过短的片段。
- 去除污染序列:通过对比(如使用BLAST或Kraken)移除可能来自污染源的序列。
- 结果存储:清洗后的数据需保存为新的FASTQ文件,并按样本编号进行归档。
数据去重(可选)
- 原理:去除PCR扩增过程中产生的冗余序列,避免对下游分析造成偏差。
- 实现:使用工具(如Picard或SAMtools)标记和去除重复序列。
三、注意事项
- 数据完整性检查:保存和传输数据时,使用MD5校验码验证数据文件是否完整。
- 质量评估后再进行后续分析:如果发现质量问题(如接头污染过多或低Q值比例高),需重新优化数据处理或重新进行实验。
- 分析步骤标准化:制定明确的标准操作流程(SOP),确保每次数据处理的一致性。
- 跨平台兼容性:Illumina平台数据多以BCL格式保存,需先转化为FASTQ格式;MGI平台直接生成FASTQ数据,但可能包含特定字段,需注意兼容性。
|
02 测序数据质量评估重要指标
指标 | 含义 | 评估标准 | 注意事项 |
---|
数据量 | | 与实验设计相关,如全基因组测序需高数据量,目标区域捕获测序需低数据量 | | Q30值 | | Illumina | | 碱基错误率 | | | | GC含量分布 | | | | 序列质量分布 | | | | 碱基组成 | | | | 目标区域覆盖度 | | 全基因组测序需 ≥30X;目标区域测序需 ≥90% 覆盖至少10X | | 均一性 | | 80%-90% 的目标区域深度达到平均深度的20%-50% | 均一性差会影响局部区域数据完整性和变异检测灵敏度。 | 重复率 | | | | 插入-缺失错误率 | | | Indel错误率高可能由聚合酶性能或数据分析软件问题引起。 | 聚类效率 | | Illumina平台推荐聚合簇密度 800-1200 K/mm²;通过过滤读数比例 >80% | 聚合簇密度过低浪费数据量,过高则导至簇重叠和质量下降。 | 多重标签识别 | | | |
-END-
作者简介:涓涓细流,一个想要为NGS检验工作人员做点事的人,希望以此提高大家的专业水平,降低检验质量事故发生的概率,为患者服务。纤纤不绝薄成林,涓涓不止江河生!
|