熊磊：基因组大数据如何塑造肿瘤精准治疗

检验之星 · 发表于 2016-6-10 22:32

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

大家好，因为今天是第一次用微信直播，所以中间可能有一些（细节）不是非常熟悉，请大家谅解。今天我主要跟大家讲一下基因组大数据如何塑造肿瘤的精准医疗。因为这个话题其实是比较大的，所以我今天分两个部分：第一部分是相关的肿瘤的基本知识，即为什么肿瘤是一个基因组疾病；为什么基因组数据和肿瘤治疗有如此大的关系。第二部分，肿瘤的基因组数据如何使用，主要是通过一个新药开发的案例来讲基因组数据如何使用；基因组数据如何结合其他的数据打造肿瘤的精准医疗。

为什么需要肿瘤的精准医疗

我们看一下，为什么需要肿瘤的精准医疗。

这张图是一个非常典型的肺癌的病理诊断分型图。肺癌患者一般病理分型上回分为非小细胞肺癌或小细胞肺癌。

肺癌患者一般来说，进入到医院的第一天，医生诊断怀疑肺癌的话，可能会拍片，依据影像结果再建议做病理穿刺。如果拍片，影像上有疑似肺癌的话，病理穿刺再显示或者是非小细胞肺癌中的腺癌或者是鳞癌，或者是其他类型的小细胞肺癌。

如果病理结果能判断出病理分型以后，那么结合影像，包括影像肿瘤直径的大小等数据，临床会进行一个分期分型，这就是TNM的分型。TNM分型是对肿瘤患者包括肺癌患者一个清晰的诊断。基于这样的分期分型，过去做新药临床试验的时候，我们根据这样的分型，把某一类分期分型特征的人群进行随机分组，分为干预组，也就是新药组，对照组也就是原有的药物或者是安慰剂组。这样的话，做完一个临床实验的时候，我们统计一下人群相关的数据，按照新药临床统计的方法，我们看哪一个人群获益更多。如果新药组获益人群更多的话，那么达到一个统计学的要求，这个药可能会获批。在这样获批的情况下，我们可以看到，肺癌患者都是在已经获批的药物所批准的临床实验结果基础之上，进行治疗，也就是下面我们要谈到的指南的基础。各类药物临床试验构成了指南循证治疗的基础。

所以一个患者过来，除了拍片做影像之外，大家可以看到这张图里可以清晰地显示，患者还需要做病理穿刺，会得到不同的分期分型的诊断结果。这张图显示，从上到下，肺癌患者逐渐变为晚期，如果诊断为I期，有I期的相应的临床实验，如果是二期有相应的二期临床实验一系列实验，如果有三期，那么也三期对应的一系列临床实验。所以我们的指南和医生是根据各个分期指导患者的治疗。

在这样一个治疗的原则和前提下面，包括分期分型指导的临床药物实验最终的结果，所有成功的药物临床试验形成我们的指南。但据FDA统计，肿瘤的药物有效率是平均25%，也就是说，10个患者按照指南进行治疗，平均有将近7.5个患者是陪疗，不仅是患者的治疗出现陪疗，其实这样一个药物在如此低的有效率前提下，FDA按照这么低的标准批准这个药物上临床，即使在这样的情况下，肿瘤药物临床的成功率仍然是非常低的，失败主要发生在临床的二三期。图显示二三期临床失败率是肿瘤新药开发主要的原因，总体成功率是小于10%，也就是说平均在5%到10%左右。这样一个药获批后的平均有效率也只有25%左右，当然低的可能是百分之十几，高的可能有百分之四五十。

为什么肿瘤如此复杂，肿瘤的治疗会有较大的差异？

为什么肿瘤的治疗会出现如此大的差异性？这就是我们要看到，肿瘤其实是一个基因组疾病。当我们看到一个患者的肿瘤的时候，其实这样一个肿瘤在既往20年、30年之前产生的第一个基因变异，当基因变异逐渐积累的时候，我们可以看到，这是典型的肠癌的患者，在最早的时候是非常早期的癌前病变，最后发展为早期腺癌，最后是恶性肿瘤的早期直到晚期。我们看到这个患者可能在三四十岁的时候出现第一个基因变异，经过了将近漫长的30年的肿瘤不断地演化，最后到63岁可能诊断为晚期，这个晚期患者出现了转移。

所以，大家可以想，这样一个漫长的30年的过程中，有些肿瘤是十几年，有些是40年，在这样的漫长的时间，肿瘤的基因组在不断地发生演变、进化，演化出现在的这样的情况，以肺癌为例，这样的情况导至没有一个患者的基因组变异会一模一样。

这张图有一根横线，五根纵线，每根纵线代表一个患者的基因组变异图谱。我们可以看到，在这五个患者中，左边只显示了十几个重要的基因变异，这张图说明什么呢？如果纵的方框里面显示其中有几个颜色就有几个基因变异，可以看到。如果从横轴来看，只看EGFR基因的话，当然我们看到这个患者里其中有三个患者可能存在着蓝色，说明都有EGFR基因变异，我们说这三个患者是EGFR突变携带者，当然他们看起来就是一类人。但如果看更多的基因，最后看到，当只看EGFR基因可能这三个患者都一样，但如果看EGFR基因合并其他基因变异携带的时候，我们就会发现没有一个患者携带一样的基因变异。

所以，我们看到，为什么患者出现这么大的差异？因为刚才提到，可能基因组演化的时间非常长，使得中间的复杂性非常大，包括生活习惯都可以影响基因的变异。我们看到，有吸烟习惯的患者统计下来，其中有EGFR基因变异的比例远远小于非吸烟的患者，也就是说，人生存的环境，包括诱导发生的各种原因导至基因变异图谱不一样。不光是外界的环境，还有肿瘤长时间的演化，导至了可能肿瘤变异产生非常大的复杂性，而且可以看到，肿瘤在不断地演化和进化过程中，一个患者在治疗的过程中前后也在发生变化。

从这张图中可以看出来，这个患者从早期的正常的细胞，在中间出现早期的肿瘤细胞，再到晚期出现带转移潜能的肿瘤细胞。图中有不同的颜色，不同的颜色代表携带不同基因变异细胞克隆群体。我们可以看到，晚期的阶段这个患者可能有十来种重要基因变异，这十来种每种占了一部分，所以这样一个患者在前后的过程中，携带有不同基因突变细胞克隆的比例在不断地发生变化，它是一个进化生命体。

为什么肿瘤如此复杂？

首先，肿瘤组织的基因组（很大程度上）决定了肿瘤的生物学行为。肿瘤一旦被常规的影像检测到，其实这个时候，常规影像分辨率在0.5或者是0.2公分以上，我们可以看到，已经进行了数十年的演化，所以这个过程中，肿瘤基因组在演化的过程中产生了很大的复杂性，而且在治疗的过程中，不光是在前面生成肿瘤的时候产生巨大的复杂性，每个肿瘤患者的基因组也在随着治疗周期的推行，在不断的发生变化。

第二，肿瘤生命进化体拥有顽强的生命力。肿瘤在治疗的过程中，其实这个基因组也在不断地演化对抗这个治疗，所以肿瘤生命进化体拥有顽强的生命力，肿瘤基因组变异是进化的源头，肿瘤的进展，比如耐药是肿瘤进化在临床上的表现。

第三，肿瘤基因组作为进化单位，基因组越来越大，进化的历程越复杂，所以产生的产物越难以抵抗。细菌和病毒都可以出现耐药，为什么细菌耐药和病毒耐药不像肿瘤这么复杂，因为细菌的基因组特别小，所产生的可能变异的进化的复杂性远远小于人的基因组。

我们原来把攻克肿瘤叫做“登月计划”，把攻克肿瘤比作登月，其实攻克肿瘤远远比登月计划难，我们已经登月很多次了，但是肿瘤到现在还没有攻克，我预计火星的登陆会早于肿瘤的攻克。

如果我们要谈肿瘤的基因组的进化，谈肿瘤基因组大数据和肿瘤基因组的关系，必须了解肿瘤基因组是怎么回事，而且它是动态不断演化的基因组，由基因组驱动整个肿瘤生物性的表现形式，所以肿瘤首先是进化的产物，肿瘤的患者需要个性化地对待。因为进化之后，每个人不一样，而且肿瘤患者需要个性化的诊断、治疗和临床实验。

我们可以举个例子，比如肿瘤患者遗传性的诊断。比如一个患者，这个患者在某一个公司做了这个检测，她是肠癌的患者，这个肠癌患者其实是有家族史的，她的母亲、她的儿子都是肠癌患者。当做基因检测的时候，出现了什么问题呢？这个基因组的数据解读比较复杂，检测出了三个基因，这个公司给他的报告是基因突变未明，也就是说不知道这个变异是什么情况。基因突变未明是什么意思？这下面是一个非常专业的判断，我在这里举个例子，不是试图让大家要去学习里面的解读这种专业性的工作。

基因变异可能包括疑似良性的变异、不明变异以及疑似突变变异，还有明确的突变。疑似突变和明确突变的患者可能判断为遗传性的，如果携带中间这两种的话。我们可以看到，这个公司给的这个患者的最终诊断、最终基因组数据注释为什么是错误的？因为最终诊断为一个疑似突变的患者。这样的患者是遗传性的肠癌高危人群，我们可以明确地判断他是家族遗传，不仅仅是家族史，还是遗传的，因为家族史可能有生活、饮食、习惯的原因导至家族得肠癌，不代表是它是遗传的。所以家里有两个肠癌不代表真的是遗传，但是如果检测到了这个基因确实是一个功能性的遗传缺陷的，那么结合其亲属的变异，可以判断为他是遗传性的肠癌。美国ASCO推荐最早12岁就可以开始做肠镜筛查，而普通风险人群推荐50岁开始做肠镜筛查。我们可以看到，一个基因组数据的正确解读、测序和注释会影响到一个家庭甚至是整个家族的肠癌的预防。而当时这个患者在医院里比较晚的诊断出来，很可惜额是，这个家族传到儿子这里的时候，在他30多岁的时候诊断为肠癌晚期，去年已经死亡。

当前肿瘤临床治疗的困境：治疗出现耐药、患者拒绝化疗

刚才讲的是早期诊断和早期筛查，下面我们看一下肿瘤用药诊断。下面举个例子，是一个胃癌晚期患者，这样的胃癌患者在2011年被诊断为胃贲门部腺癌，出现了HER2基因的扩增。医生给他开了一个处方，一个靶向用药，再联合化疗，联合化疗两年之后耐药了。在这个之前，医生都是循照规范的指南给他进行规范的治疗，但是耐药之后这个患者进入二线治疗之后这个患者的治疗效果很差，三个月之后换了DP方案之后很快出现了进展。大家可以看到，每隔两三个月这个患者就进展，每两三个月换一次药再次进展。这样的情况连续换了5个方案。经历了一年半时间，这个患者从淋巴结转移到肺转移再到最后全身转移和脑转移。所以在这样的情况下，离开精准医疗，医生在进行诊断用药已经变得非常困难。所以在2015年3月份的时候，送思路迪公司做检测，诊断结果可以发现，这个患者肿瘤组织诊断携带某个特定的基因变异之后使用特定的药物，这个药物在国外获批在其他的肿瘤适应症上，没有在胃癌上获批，但是因为存在靶向基因变异，指向了靶向药物。这个患者在服药八周之后，整个肺部病灶得到了完全的缓解，颅内的病灶也得到很大的控制，达到了PR的效果。所以，在晚期的时候，只要基因组测序准确性以及注释准确性得到了保障之后，对患者的治疗会产生非常大影响。在一年半时间，患者使用了五个药物，换了五个化疗药物都不能达到精准的诊断应该用哪种药情况。

再看一个晚期患者，如果拒绝化疗怎么办？我们知道很多肿瘤患者其实非常害怕化疗，化疗产生的毒性和副作用让人难以忍受。这个的患者是肺癌四期的患者，我们可以看到左下图，整个肺内出现了多处的转移灶，包括很多小的转移灶，我们可以看到这样的一个患者行常规临床肺癌基因检测是阴性的，当使用二代测序检测的时候，发现另外一个基因的罕见变异之后，依据测序结果指导用药，这个患者四周以后，整个肺部的病灶可以得到几乎完全的缓解。这样的患者拒绝化疗的时候，NGS出现之前，我们之前没有办法让他知道怎么展开一个精准的治疗。

前面讲了诊断、早期筛查，下面再讲药物的临床实验。当我们精准地把人群区分之后，药物临床是什么样的现状？这两个图分别在肺癌里面，左图是TKI的药物，是受体激酶的抑制剂，我们可以看到，这个药在东方和西方中的人群大概是在肺癌腺癌里面占到10%-40%，应答率接近50%左右。但是，我们看右边的图也是非小细胞肺癌腺癌的人群，占了将近4%-7%左右，人群非常少，但是应答有效率可以达到70%。我们可以看到，右下角里面的药是辉瑞公司的药，II期直接获批的。FDA当时要求上市之后补三期临床，获批上市四年之后，2015年III期的数据显示，二期只有80多人，在三期100多人的时候，初期的数据证实了该靶向药物在更大人群的临床试验中，确实使得这一部分4%-7%的人群大大地获益。不光是4%-7%，甚至到现在占比1%的人群现在也开始针对他们展开临床试验。我们可以看到这个临床试验针对的额人群只占肺癌中的1%，每一各竖条都是一个病人，这里有80多条，意味着有80多个病人，这意味着筛选了8000多病人左右，筛选到了1%的阳性人群，这阳性人群有效率达到多少？我们按PR控制肿瘤缩减30%的红线来看，几乎达到了超过80%的有效率。所以说，这样的有效率从前面看到的25%的平均有效率，通过精准的临床研究和临床实验已经达到了85%，比平均有效率提高了3倍左右，这个患者的转移灶控制也非常好。

现在的分子分型和整个药物开发完全不一样，我们看到1%、2%、3%、4%，都有对应的药物来开发。如今当我们再看肺癌的时候，我们不会只看腺癌、鳞癌、小细胞肺癌这一类比较大的分类，我们还会看到不同的基因型，而且我们目前看到的还只是单基因变异。我相信未来以后一定可以同时看两个基因，三个基因的变异，我们会把这个蛋糕切得越细，蛋糕分得越细，细分的人群对应的药物有效率越高。这就是精准医疗，背后就是基因组的数据。

肿瘤基因组大数据有什么特点？

首先什么是大数据？刚才讲的是基因和精准医疗，大家可以看到，基因对精准的早期肿瘤筛查非常有帮助，肠癌里有10%左右是遗传性的肠癌，携带遗传变异的人群大概是35岁到45岁之前，诊断肠癌的概率非常高。此外，中国每年300多万的肿瘤患，70%都是晚期，这些晚期的患者经过指南一线二线治疗之后，大部分进入了经验治疗，指南已经无法指导治疗的时候，我们基因组的解析可以帮助医生精准地选择人群进行高效率的治疗。

从药物开发，药物临床研究中可以看到，其实这个药物临床研究一旦入组人群非常精准，哪怕是靶向1%人群的药物，有可能只要做二期，八十几个人，因为这80多人是经过8000多人筛选出来，也就是说这样的药物如果不针对1%精准的人群，该药物永远无法上市，携带类似基因变异的人群一辈子也不可能获益于这种药物。

谈大数据的时候，这张图很多人在很多场合看到过，Big Data是什么？好象每个人都在谈论，大部分人不知道什么是Big Data，怎么做Big Data，但是因为大家都在说，所以我们也必须说我们也在做Big Data，这是非常非常形象的描述。在刚开始流行大数据的时候都会出现这个情况。在未来，就像当年的互联网大数据，在早期的时候，也处于这种状态。但是经过十年之后，大数据如何影响电商，如何影响社交，怎么影响搜索，是非常确定的。肿瘤基因组的大数据在一两年内可能大家也觉得处于这样的状态，但是举个例子，从早期筛查到诊断，再到新药研发，已经明显可以看到基因组数据对肿瘤的治疗，精准的诊疗产生很大的影响。

基因组大数据到底如何使用达到这样的效果？基因组测序价格在过去15年降了一千万倍。我们看到，其实在2016年，测序仪的数量增长已经远远跟不上基因组数据的增长，因为测序仪的通量越来越高，而且测序仪的使用频率越来越高，所以大家可以看到，2016年基因组数据的增幅远远高于测序仪的数量的增幅。

当我们谈数据的时候，其实数据离真正的应用还差很远，一般来说分几个阶段，我们讲Data，Data只有到information才能被人使用，所以我们讲最浅的一层就是讲肿瘤的诊疗、诊断和用药指导的治疗。基因组数据变成了信息，才有可能变成诊疗的决策，把诊疗决策信息不断地积累反馈，才能变成知识，这个知识可能成为未来肿瘤的诊疗共识和指南。只有掌握了对肿瘤的基因组结合使用药物，产生的知识之后，才有可能形成开发药物的认知智慧，才有可能去开发药物，所以药物开发是肿瘤基因组数据的终极应用。

关于肿瘤基因组大数据的特点：

首先，肿瘤基因组大数据的容量非常大。刚才提到15年的时间，基因组数据测序的价格在直线地下降，使得现在非常轻松地测到一个人基因，包括从几个基因到全基因组，小到几十兆，大到几个T。

我们讲基因组大数据的时候，比如测两个基因，比如安吉朱莉亚身上携带的BRCA1，另外一个相关基因是BRCA2，我们把两个基因合并在一起，大小测完之后大概在20M左右。遗传性的肿瘤有几十个基因，大小在200M左右，肿瘤个性化的诊断，基因可以从几十个到几百个，数据可以从一个G到几十个G。再往后是全外显子测序，全外显子测序数量更大，从20甚至到更大200个G左右，全外显子测2万个基因。当测2万个基因还不够得时候，我们还可以做全基因组的检测，我们测的不仅仅是基因，测的是整个人类基因组包括非基因的片断，包括基因之间的片段，全部检测出来，那这个数据量非常大，可以从100G甚至到1个T以上。大家会觉得奇怪，为什么在遗传性的肿瘤基因，它们的大小是固定，大概是在20M或者是200M左右，但是为什么到了肿瘤的诊断，到全外显子测序，到全基因组测序，就变成的一个波动的数字，有可能相差10倍左右甚至更高，这其实就是基因组数据到形成信息的时候一个“黑匣子”，这个“黑匣子”充满了陷阱，如何从数据到信息，就是塑造肿瘤精准医疗的第一步。

第二，肿瘤基因组大数据还要强调准确性。我们讲的准确性包括什么？我们知道一本书是《大数据时代》，是一个记者写的，在前几年非常流行。其实在《大数据时代》中有非常多错误的认知，比如很多只是大数据在某些应用上的一种特点，他就归结为所有的大数据的特点。里面特别不强调准确性，他认为数据量大了之后，通过各种处理，能够找到一些规律，不强调个体的准确性。但作为肿瘤的精准医疗，个体的准确性非常重要。当单个的数据如果不准确的话，如果检测的方法或者是数据的分析，或者是采集的渠道有问题，那么质量有问题，那么数据要指导精准医疗是天方夜谭。

第三，肿瘤基因组大数据具有快速性。讲到快速性，就比较简单，这跟你的应用场景有关。如果你是研究，那么你可能会慢一点；如果在临床上，临床诊断要求快一点；如果数据量特别大，你也希望它快一点。这样的话多样性就非常重要。特别是肿瘤基因组大数据不可能仅仅凭肿瘤基因组大数据指导精准治疗，一定要和其他的数据结合在一起，这种多样性的数据，使得他最终如何兑现肿瘤精准医疗变得非常重要。

第四，肿瘤基因组大数据具有存储、管理和使用的复杂性。讲到肿瘤基因组大数据的复杂性，当然我们讲的不是基因组数据本身的复杂性，基因组复杂性在准确性和多样性里面体现出来，这里讲的是数据的存储、管理和使用的复杂性。

肿瘤基因组大数据信息决策花存在四个“陷阱”

基因组数据到信息，决策化的过程中充满了“陷阱”，我们简单地分四个阶段，这四个阶段不是全部地代替，我们只是讲在基因组层面上面获取数据本身存在的四个“陷阱”。这个“陷阱”决定了迈出第一步信息化能不能实现？

第一个“陷阱”，是首先你选的时候要选择你检测的目标基因，这和你的应用有关，你做早期筛查，还是做用药诊断，还是做复发预后的判断，比如肿瘤病做完手术之后是否要复发，以及做新药开发，每个应用的目的不一样，基因选择就会不一样。

第二个“陷阱”，关于测序方法和深度，你检测特定的热点的变异，还是某个基因全长的覆盖，甚至是全基因组的覆盖，或者是做超深度的覆盖，这些方法的不同都决定了你产生的数据的质量和广度是完全不同的。

第三个“陷阱”，关于生物信息分析，究竟是用来做快速的诊断还是用这个进行复杂的研究，你要深入挖掘这些数据，还是做标准化的分析，只从分析里得到大量标准化的信息，不在乎信息本身挖掘的深度和速度。

最后一个“陷阱”是数据注释，到底数据注释的应用层面是在疾病诊断方面还是在辅助用药方面，还是在临床研究、临床实验方面，还是在早期筛查方面，都有很大的差别。因为时间原因，我无法举四个应用，一般来说应用在早期筛查、疾病的诊断、个性化用药的诊疗以及新药开发，今天我只讲一个新药开发一个例子看这个情况。

这是我们思路迪公司在内部做的ODM的早期版本，给大家看的是非常简化的版本的描述，从基因组数据如何在整合肿瘤信号通路，如何整合药物相关的信息，最后到临床信息，用于确定的应用。基因组大数据塑造肿瘤的精准医疗，不是用基因组数据塑造，而是从基因组数据开始走向肿瘤精准医疗的塑造，所以中间还需要非基因组的信息在里面起作用。

举个例子，这个药物的靶点是FGFR1/2/3，FGFR1/2/3是一个家族，它们之间受体激酶的结构非常像，使得药物开发的时候很难区分，所以一般的靶点药物开发都是直接针对1/2/3开发靶向药。

当开发靶向药的时候，如何用精准的数据指导药物开发。除了容量,我们讲准确性。看准确性的时候。首先，看FGFR1/2/3这个基因变异，基因变异包括什么？这个基因变异可能会是扩增，也可能是基因融合，同时还可能存在点突变，而且点突变是广泛分布，没有热点变异。第二，肿瘤组织，因为是要做肿瘤的临床实验，开发药物，所以我们希望筛选到非常精准的基因变异人群去进行临床试验，肿瘤组织中，FFPE样本的DNA碎片化非常严重，异质性也非常强，不同部分基因变异分布的含量差异非常大。第三，这是一个临床试验，所以要求快速报告结果，这个患者诊断以后很快地出结果，以决定他是否要入组？因为我们每个样本可能入组80个人，可能入组100个人，所以每一个数据本身对药物的临床实验的影响非常非常大。我们不光说病人本身的临床试验的成本在美国是10万到20万美元，更多是，前期积累了很多工作，推进到临床二期的时候，样本本身80个人或者是100个人，这些人群的精准度决定药的生死，所以每个样本数据影响非常大。当讲肿瘤的大数据和肿瘤的精准医疗的时候，一定要讲应用场景，应用目的是什么，这是药物临床试验的一些基本要求。

看这几个特点的时候，看四个步骤：首先，是新药开发应用。第二，是基因全长覆盖，因为我们已经知道了，这几个基因没有热点突变，同时可能存在着扩增，可能存在融合，存在着不同点突变。第三，是一个快速诊断，我们必须很快地得到这个结果，以决定这个病人是否要入组。而且同时我们要深入挖掘基因组数据，因为每个病人的数据非常重要，可能决定了新药的临床是否可以成功，最后一个步骤，目的是临床试验。所以数据注释非常谨慎，80个人入组的时候，只要注释错了两个三个，会影响药物的影响有效率，比如30%应答率，也就是说十几二十人有效，注释错了两个，使得有效率降低了10%，这个影响是非常大，最后到药获批的时候可能是15%-20%的有效率之间摇摆。

当我们思路迪考虑如何使用基因组数据做信息化决策的时候，包括我们公司做肿瘤基因组数据的时候，很多人问，你们思路迪到底怎么样用基因组数据指导新药开发？要回答这个问题，需要大家先了解背后基因组数据复杂性，然后我们再沟通怎么做这个事情。

首先，我们很清楚，你是选择目标基因，在这个例子里FGFR1/2/3，所以说新药研发决定了你选择的靶点是确定的基因。

第二，我们选择了FGFR1/2/3之后，因为它的新药临床使得检测要基因全长覆盖，因为你不想漏掉任何一个可能的变异，这是一个未知的。在临床诊断的时候，我们经常只做两个热点的变异，这决定了你当时的检测方法必须覆盖所有的基因全部的外显子，甚至里面的某些内含子区域。

第三，因为你是做肿瘤病人的诊断，以及诊断之后想用它入组临床研究，所以测序深度要非常高，在各个多中心临床研究医院里面，如果要标准化，必须取得肿瘤组织的病理切片，使用这个切片统一规范来做这样的临床研究入组人群的基因组检测。刚才我们谈到，因为肿瘤组织被固定以后，整个患者肿瘤组织的碎片化非常厉害，所以要求的深度很深，最少500X，有可能要到800X至1000X。另外生物信息分析方法，需要用非常成熟的流程化的方法快速地对病人的样本进行深入地分析。同时，我们可以看到，要深入地挖掘这样的数据，因为这三个基因变异有不同的复杂性，除了点突变还有扩增，还有不同的融合，融合可能会和不同的基因在不同的内含子或者是外显区域和别的基因发生融合。

最后，因为是一个临床试验，我们会发现，虽然药物针对基因，但是最终是靶向作用蛋白，因此我们还要看这个基因本身突变或者是扩增引起的蛋白的表达的变化，或者是蛋白活性的变化，这样的方法不是基因组测序能够解决的，必须结合免疫组化甚至是其他的各种方法，包括蛋白检测来看最后基因注释的变异人群是否真的激活了这条通路。

这是强生公司的FGFR1/2/3/4的抑制剂，在2014年ASCO上面公布了它的临床一期数据，他选了哪些？选了FGFR1/2/3/4，因为是针对FGFR1/2/3/4这几个受体，右边可以显示它有扩增，有融合，没有检测到点突变。同时，这9个人里面，可以看到，有效率并不是非常高，当然和剂量不一定有关系。所以在这个时候，到底这里出了哪些问题？

强生公司的这个是小型的临床试验，但是不光是它，阿斯利康公司也公布了另外一个FGF1/2/3抑制剂AZD4547，4547显示扩增的人群并不是都有效的，有效的人群没有扩增。也就是说，前面入组的基因变异的人群并没有达到理想的结果，什么原因？首先，基因选择是对的，当然不是百分之百对，为什么？因为FGFR1/2/3抑制剂不仅仅针对变异的人群，可能FGFR非变异的人群也有效，这个部分比较复杂，就不展开了。

第二，测序方法对不对？它是明确的，但是我们不知道它用什么样的方法，但是至少检测的入组的人群是否真的扩增和融合，点突变为什么没有检测到？是因为人群特别少，还是选择的肿瘤适应症有问题？但是它的方法非常明确，他用NGS来检测，没有用PCR或者是其他的方法检测。

第三，生物信息分析的路径是否对？我们也不知道对不对，但是它非常明确分析了扩增，分析了融合，这条路径没有错，但是我们可以非常确定的说，他的数据注释是不明确的，或者可以说是有潜在错误的。

为什么？有一张示意图来举例说明，虽然FGFR基因有扩增，或者融合，或者点突变，但不意味着蛋白会高表达或者是激活，因为我们知道，只有蛋白高表达或者是激活才有可能形成后续的肿瘤对药物会敏感。但是光蛋白高表达不意味着蛋白有活性。第三，即使FGFR蛋白有活性，我们通过免疫组化的分析，可以知道它是否有活性，不意味着这个肿瘤细胞会依赖于FGFR蛋白活性，如果不依赖于它的活性，即使它有活性，药物用在人体上面也不会有效。所以一系列的东西需要细胞、动物和肿瘤组织的生物学实验来确认。所以看到右下角在肺癌中成功地发现，肺癌基因扩增和高表达是一致的，同时体外的细胞实验证明，大规模细胞实验证明肺癌细胞扩增的、高表达的、一致性的细胞中，它对药物的灵敏性非常高，而没有扩增和没有高表达的细胞中，我们看到右上角整个曲线往上延伸的时候只有一个细胞是对它敏感的，这里将近100多个只有一个，左下角有四个，四个细胞里有三个对它敏感。

我们看到，扩增检测对了，融合也对了，点突变也对了，检测对了，分析对了，确实有高表达，高表达之后确实有活性，有活性之后，细胞实验证明它确实依赖于蛋白起作用，但是不代表这个患者仍然入组对了，为什么？因为有可能这个蛋白在肿瘤组织中存在异质性，有可能这个肿瘤中只有一部分肿瘤细胞有基因扩增，也就是说，这个病人只有20%的肿瘤扩增的时候，这个时候把患者入组的时候，仍然对药物有效，很快肿瘤会见效，但是这样的患者，它的OS会比较差，ORR会比较好，但是很快患者会进展。

所以，我们可以看到，不光需要细胞和动物实验，我们还需要肿瘤组织来帮我们综合在一起，判断我们得到的肿瘤基因组数据还要叠加哪些数据，才能最终指导肿瘤的精准治疗，精准医疗里面非常重要的是肿瘤的精准临床试验。

刚才我们谈到准确性，快速性问题，就不用反复地讲，因为这是相关IT的问题，我们讲多样性。因为除了基因组数据之外，基因组数据如何塑造肿瘤精准医疗，它是一个起点，是一个起始。没有基因的变异，我们就无法迈出筛选人群的第一步，但是如果你基因选择对了，测序也对了，分析也对了，注释也对了，但你如果没有整合其他的数据，这样的数据缺乏多样性和完备性，永远不会存在简单的用基因组数据就直接地指导肿瘤的医疗，肿瘤的复杂性仅仅从基因组层面上是无法解析的，虽然这是非常重要的起始点。

所以我们看到，基因组大数据信息，覆盖了FGFR1/2/3，全部外显子和部分内含子产生的数据量，事实上40兆左右，为什么打个问号？因为有可能基因覆盖的不对，因为可能存在人们不知道的，这样一个药物靶向FGFR1/2/3，可能它最终影响活性的基因不仅仅是FGFR1/2/3，可能还有其他的基因，影响肿瘤细胞对该药物的响应的也不仅仅是它的靶点。

如果检测全外显子会出现什么样的情况？这是另外的情况，我们检测的不是FGFR1/2/3，如果我们做全外显的检测，会不会产生更多的病人对这个药物有效？所以从基因组数据来说，如果讲新药开发要迈过第一步，要整合细胞、动物和临床的数据，包括肿瘤组织的数据，最后才能变成信息，这些信息需要深入地综合在一起理解肿瘤的成因，也就是说，肿瘤携带基因变异，使得它对基因变异所激活的信号通路产生了很大的依赖性，当我们用小分子或者是单抗或者其他的方式屏蔽该信号通路的时候，肿瘤变得非常敏感，迅速地死亡。只有深入地理解作用原理之后，才能构建更贴近临床的模型，最后形成知识之后，我们最后用知识指导新药开发，也就是说，我们如何选择病人，怎么样对病人进行检测，怎么样对检测的病人进行这样的分析、注释，最后如何整合其他的非基因组的信息，如何正确地判断一个病人是否是合适病人。

精准治疗时代下大数据指导的整合新药开发和精准治疗平台

所以，肿瘤精准治疗时代下大数据指导的是一个整合性的平台，包括整个新药研发和精准治疗的平台，我们看一下，NCI展开精准医疗的四个方面，在去年下半年补充了几个方面。其中很重要的是增加了数据的多样性、完备性和准确性，我们知道在启动NCI-MATCH研究之前，过去五年时间，TCGA的支持计划支持了几万个肿瘤样本的全基因检测，形成了非常庞大的肿瘤精准图谱，但是在之后，我们要解决肿瘤耐药性的问题，要构建一系列来自于肿瘤患者的实验模型，包括NCI强调，要建立大规模的肿瘤原代细胞需要肿瘤PDC和PDX模型，其实除了基因组数据之外，我们要把数据变成信息，就必须有实验模型。

最后，我们基于数据的信息化之后，才能真正地继续循证指导精准医疗，所以，临床前的动物模型和细胞模型、PDX、PDC其实是将基因组的数据信息化了，我们信息化之后才能形成知识指导治疗，大家可以看到这张幻灯片比较复杂，其实是大规模的临床细胞平台，如何结合基因组数据找到基因变异，这张图的意思是告诉我们精准数据必须基于实验平台或者是肿瘤组织的其他多纬度的数据整合在一起，形成完备性，才能信息化。

举个例子，我们自己开发一个药物的时候，我们要综合临床的ODM模型，包括数据挖掘和精准医学实验性的研究。我们发现这里存在一个基因变异，基因组数据告诉我们他存在肠癌，存在食管癌，存在肺癌、肝癌，我们同时在动物模型中发现，其中一部分的PDX模型和临床肿瘤组织一样，确实存在基因变异，而且通过细胞实验和动物实验表明，基因变异中的表达也是异常的。

我们来看一下，当我们用原代肿瘤细胞模型测试的时候，我们发现，如果所有的人群不筛选，在细胞模型里用小分子药物杀伤细胞时，只有5%的人群会响应，如果选择高表达的人群，18%能响应，我们选择扩增的人群，40%能响应。如果我们选择扩增联合高表达的人群有60%的响应率，当然人群数变成只有5个，也就是说，人群比例大大缩小，可能只有5%到10%的人群可以获益，但这些人群拥有该基因的高扩增和蛋白的高表达，虽然是针对5%到10%的人群，如果进行药物处理的话，可以达到60%的响应率。

这个例子说明，这样一个肿瘤的基因组数据到最后的应用要经过细胞动物和临床实验，当然到临床试验这一步已经没有退路了，所以必须在临床试验之前反复地确认好基因组数据，基因组数据和药筛平台整合在一起，把数据变成信息，基于这些信息应用到临床实验中，或者是应用到临床个体上，才能最终指导医生对患者的治疗。

目前我们不讲NGS进入到1000美元时代，因为最小单位基因的热点变异区域，纯测序成本已经进入到100美元时代，成本的降低和技术提升虽然还有很大的空间，但是已经不是像四五年前成为主要的瓶颈。

如何建立数据驱动的科学和医学路径，如何运用大数据驱动的商业模式决定肿瘤精准医疗的未来？如果我们仅仅停留在进行测序，停留在获取基因组的数据，那不是肿瘤精准医疗，肿瘤精准医疗不可能仅仅依靠肿瘤基因组的数据的应用来达到精准医疗的目的，必须把这些数据与其他更完备的非肿瘤基因组数据整合在一起，才能形成肿瘤的精准医疗，无论早期筛查，还是诊断和临床实验。

最后，我简单地介绍一下思路迪，我们基于肿瘤基因组的数据，再整合多维度数据对早期高危人群进行预防，对患者进行诊疗一体化的检测服务，包括医学服务，整合基因组的数据，再结合体外的各种模型运用到临床实验中，更精准的展开临床试验，更精准地定位患者人群信息，最后开发成为标志物驱动的高效应答的药物。

好，谢谢大家！

Q&A

1、群友：如何精准预防疾病，预防肿瘤？肿瘤治疗的突破点在哪？

熊磊：这个问题太宏大了，我简要回答一下吧。肿瘤分为遗传性和非遗传性，遗传性的目前已经有明确的基因可以检测，从而可以指导个性化的体检，达到早期发现，早期干预，早期治疗，彻底治愈的目标，比如刚举的肠癌遗传性变异检测的例子。肿瘤治疗的突破点，我个人理解的一点在于深入认知和理解肿瘤基因组变异的复杂性，以及肿瘤微环境和肿瘤基因组变异之间的相互作用，从而设计出能推迟复发耐药的药物。

2、群友：医疗大数据未来盈利模式及挑战？健康大数据的引爆点到了吗？

熊磊：医疗大数据的未来盈利，首选要建立在对疾病的深入理解基础之上，这个和互联网大数据可能有差异，因为医疗数据的采集成本非常高，一旦理解错误，数据采集和分析错误，会带来致命的风险。健康大数据，我个人觉得，还需要一点时间。

3、群友：如何建立肿瘤临床数据模型？如何规避临床数据的伦理问题？

熊磊：肿瘤临床数据模型的构建，主要要深入理解应用的目的，并以此来构建结构化的数据，才能正确的构建模型；伦理的问题，类似互联网中的隐私问题，核心在于不能透露患者的个人隐私，不能对患者进行无知情同意的有创获取。

4、群友：请问您说的非基因数据用于配合基因数据，主要指的是哪些数据？生活习惯，家族病史？

熊磊：如果要把两类数据有效结合，还是需要了解你的应用，目的，再有选择性的去采集获取分析这些数据，而不是所谓的获取大而全的数据，这和互联网大数据存在很大区别。

耐药方面，大数据能帮助：1）寻找耐药机制，因为耐药的原因会比较复杂，个性化，1%的耐药因素需要汇总大数据来发现；2）可以找到新的治疗靶点，破解耐药；3）可以预测耐药的发生，比如评估肿瘤内异质性（是耐药的一个主要因素）。

来源：贝壳社（微信号：iBio4P） 文｜熊磊

图文播报

[技术杂谈] 熊磊：基因组大数据如何塑造肿瘤精准治疗

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心