立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

小桔灯网

小桔灯网 门户 资讯中心 遗传缺陷 查看内容

羅|之我见:NGS CNV-seq杂谈(一)

2019-7-12| 编辑: 小桔灯网| 查看: 722| 评论: 0|来源: 黑白月界丨作者:罗子

摘要: 最近CNV-seq与CMA的讨论比较热烈,我也来凑凑热闹,如有不妥,权当一人之言。想说几个方面的理解:一、LowcoverageWGS作CNV分析、WES作CNV分析和CMA的一些区别二、NGS建库方法和测序模式对CNV-seq的影响三、CNV-seq ...

最近CNV-seq与CMA的讨论比较热烈,我也来凑凑热闹,如有不妥,权当一人之言。


想说几个方面的理解:

一、Low coverage WGS作CNV分析、WES作CNV分析和CMA的一些区别

二、NGS建库方法和测序模式对CNV-seq的影响

三、CNV-seq结果的验证



一、Low coverage WGS作CNV分析、WES作CNV分析和CMA的一些区别


众所周知,染色体微阵列分析(chromosome microarray analysis, CMA )产品之一的CytoScan750K,包含55万个CNV探针和20万个SNP探针,这些探针在基因上的位置是确定的,就像一根根桩子,作为CNV分析所需的基因组坐标;基于NGS的lc-WGS的数据点或者reads的坐标可以是完全随机的;WES数据可以分成两个部分,on target部分就是杂交捕获的外显子区域,这部分的基因组坐标是固定的,而off target部分的随机性比较有争议,有较多的文章在讨论off target data是否能用来做CNV-seq,以及效果如何等等(假设20%的off target rate,10~12Gb的WES数据会有2~2.4Gb左右的off target data,差不多是1x的基因组数据呢)。

CNV-seq涉及到的最重要的基本原则是“均一性”,这个很容易理解,而基于NGS的CNV-seq分析最重要的基本原则除了“均一性”之外,还得有加上“随机性”;CMA中的基因组坐标是一个个固定的桩子,它的数据只要能均一、一致,那么分析结果就会很好;在lc-WGS中,片段的随机性和扩增的均一性就会同样重要;在WES中,基因组坐标固定的数据占全基因组的1%左右,而且WES的数据是经过杂交捕获的和多轮扩增的,均一性更差,因此,基于WES数据的CNV-seq分析会比基于lc-WGS的分析显得更困难一些,结果容易随着分析参数的变化而变化。

Fig 1.A代表着NGS最理想的状态,和Fig 1.B肉眼一比:缺失一个拷贝呀!这个代表着均一性和随机性的重要,而Fig 1.C却是我们现实中会碰到的情况,既不均一也不随机,令人头疼。


二、NGS建库方法和测序模式对CNV-seq的影响


之前说到,CMA的数据点是一个萝卜一个坑,在基因组上的位置并不是随机的,而NGS的数据是随机的,同一个样本分别进行超声打断,测序1x,它们的reads的起始和终止位置并不是一模一样的,那么reads的起始和终止的位置信息对CNV分析的贡献或者作用是一样的吗?其实是一样的!假如一条fragment或者insert的长度是350bp,在基因组上的位置是chr1:10001-10350,在CNV分析当中,这条片段的两个reads提供的两个位置信息只能算一个,这也就是为什么有些研究者在做CNV分析的时候,测序只要测一端,只要测35bp或者50bp就可以了的原因,测两端和测得长对CNV分析来说完全没有必要,也就是说,对CNV分析有用的是Clusters数目,而不是reads数或者数据量或者数据深度(在这一点上,WES的100x测序深度其实对全基因组范围CNV分析贡献不大,但在外显子层面的CNV分析是有用的);可是,供应商并不会卖给我们单端的测序试剂,也不会卖给我们35bp的测序试剂,因此,NGS测序数据在做CNV分析时,天然浪费了一半。

通过统计Clusters的数目,在Fig 2.a中很容易看到Window3和4与周围序列有明显不同,Fig 2中的Cluster1正是我们目前所用的建库方法和测序模式,如果改进为Cluster2的方法,对于CNV分析而言,有效数据就能提高一倍。

在分辨率上面,CytoScan750K中每个探针/桩子平均距离4000nt,据说需要连续6个以上的位置就可以判断CNV的情况,那么也就是24Kb左右,而lc-WGS,如果是~1G(0.3x)的数据量,Cluster约为3.3M(2x75模式),window为20kb,每个window中Cluster数目在20~25之间,突变检出至少需要2个连续的信号,实际的分辨率大致在30-50kb左右,如果~3G(1x)的数据量,均一的情况下,每个碱基都能有一条fragment覆盖,分辨率会高很多,基于WES的CNV-seq可以看到单个外显子的缺失或者重复,但是假阳性比较高。


三、CNV-seq结果的验证


无论做科研还是做临床,其实都要求我们对检测结果进行验证,基于NGS的CNV-seq的验证方法有:CMA、MLPA、qPCR、ddPCR、断点PCR+sanger等等,其实方法不少,针对经常发生CNV的地方,比如说HER2,大家都备好了检测方案,可以快速和便宜的来验证,那么对于新发的CNV呢?这些方法中哪一个是很便宜的?估计很难。

还有一个难点便是CNV的大小,比如说10Kb~20Kb,可能有些人说,这么小的CNV没什么意义吧?其实不然,如果这10kb~20kb包含了TP53的某个外显子,那么肯定是有重要意义的吧?因此,CNV的重要性并不是由区域大小来决定的,而是CNV发生的位置来决定的。

那么,如果在NGS数据中比较明确的检测到一个deletion大小是15kb,包括了TP53上的某个外显子,这个CNV是新发的,并没有商品化或者备好的检测试剂,试问:是否还需要验证?怎么验证?

其实还有一个更现实的情况,如果肿瘤FFPE样本中真实存在这么一个deletion,而这个FFPE样本中肿瘤细胞的含量是20%,那么我们是否还能检测出来?检测出来之后是否能验证?因此,我们需要成本更低的技术,我们需要更准确的技术。NIPT是在染色体层面上看5%左右的差异,我们期望能省时省力还省钱地在15kb范围内看到5%的拷贝数变化,这可能才是异质性高、CNV发生频繁的肿瘤样本所需要的方案。

那么,这种需求有多必要或者多频率呢?据2015年Nature文章《An integrated map of structural variation in 2,504 human genomes》统计,基因组中发生的结构变异范围几乎都小于1Mb(INV, inversion, INS, non-reference insertion),其中从蓝线DEL的分布(下图)来看,几乎任何一个长度都有着不低检出次数,DEL类型长度的中间值是2455bp(注意:CMA和lc-WGS的分辨率,都会错过大部分DEL类型),而且占所有结构变异的61.6%(42279/68645),平均每个人/基因组有27个结构变异存在(其中DEL平均有17个),27%的结构变异的VAF<1%,也就是说平均每个人/基因组有7个结构变异(4.6个DEL)在人群中的频率是小于1%的。



最后,貌似还有很多可以讲,暂时先到这里吧,也许还可能有(二),但不知道什么时候会写,见谅。

声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部