立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索
小桔灯网 门户 资讯中心 精准医疗 查看内容

陈润生院士:精准医学本质是组学大数据与医学的结合

2017-5-29 02:53| 编辑: 小桔灯网| 查看: 1922| 评论: 0|来源: 亿欧

摘要: 在第二届大数据科学与工程国际会议(2017)上,中国科学院陈润生院士发表了“大数据与精准医学”的主题演讲,不仅分享了个人对精准医学五个方面的理解,还包括精准医学在哪些方面导至产业变革以及实现精准医学要建立 ...

在第二届大数据科学与工程国际会议(2017)上,中国科学院陈润生院士发表了“大数据与精准医学”的主题演讲,不仅分享了个人对精准医学五个方面的理解,还包括精准医学在哪些方面导至产业变革以及实现精准医学要建立的基础等内容。

陈院士表示,在国内花六千就可以得到自己的遗传密码,这是非常简单明了的事,即便没有大数据,遗传密码也可以测得,但不知道它的含义。而最近国际上正在发布一个更加有效的系统,大约在2017年底,每个月花六到七百人民币就可以测自己的遗传密码。不管是否明白,它都代表你的遗传特征和信息。

陈院士相信,从现在开始,每个人都有希望拿到自己的遗传密码,这是当前划时代的科学进展的背景。以下为陈润生院士的演讲整理:

一 精准医学的核心是什么?

精准医学的本质是什么东西?我的理解是,就是组学大数据与医学的结合。

实际上很简单,大家知道,近代生物医学革命性的变化就是得到了以遗传密码为基础的大数据。这是人类生物科学上的划时代的,以前没有,以后就变成常规的事了。因此,这个数据刚开始价格很高,现在变得普通、便宜了,任何人可以得到自己的遗传密码,而这些遗传密码通过分析,即对正常人和肿瘤患者的分析,遗传密码哪些是不同的,就可以得到信息。

比如跟肺癌相关的,你的遗传密码的不足在什么地方?如果我们分析了更多人的跟肿瘤、跟心脑血管病、跟代谢疾病相关的例子,这些人花几百块测遗传密码,这样进行比较,可以得出哪方面存在突变,你就有得这个病的风险。

大家知道美国的影星安吉利娜·朱丽,她测了她的一个典型的遗传密码,发现了不一样的变化,并采取了措施,把乳腺切掉,就不会得乳腺癌了。我们就是通过数据的分析得来的。

我们从上个世纪90年代以来可以测每个人的遗传密码,还有各样各种的大数据,如蛋白质的大数据等等,以遗传密码为代表的组学数据,这些组学数据通过大数据分析以后获得知识,构建数据库可以用来对人类的疾病进行判断。这样的结合实际上就是当前精准医学的本质。
你说精准医学比过去医学增加了什么东西?就是增加了组学大数据,加在临床医学当中。核心就是增加了以遗传密码为代表的大数据,也就是一系列的自遗传密码破译以来的医学思想的延续。

二 把组学大数据用到临床医学当中,会不会带来一些本质的变化?

精准医学虽然是把组学大数据加到临床医学当中来,但是它的意义并不仅仅在于提高了临床医学的几个百分点,可能还有更深刻的意义,我们也可以用一句话来概括,精准医学本质的意义就是可以使医疗健康的概念发生本质变化。

我们知道,健康科学的核心是什么?是诊断治疗,所以是为病人服务的,有了病才去医院找大夫,到医院,这是现在健康体系的核心。有了精准医学以后,我们可以对任何人,即便是不得病的时候,在他整个全生长过程中,从出生到死亡作全方位的监控。这个时候实际做的并不是对病人进行治疗,而是对每一个活在世界上的人健康做测量、做评估、做干预,而使得一些疾病不发生或者延缓发生,大大的提高生活质量。所以精准医学的概念下,健康医学的概念会从现在诊断治疗为主发展到精准医学实现以后的健康保障为主。

对世界上的全民、全部周期进行全方位的监控,这是本质的变化。这个本质的变化有人估计会带来相应产业的发展,我找到一个资料说,经济2018年全球跟精准医学相关的产业和带来的产值的变化有2000亿美金。

今年我参加了一个讨论会,我们院做了另外一个数据,可能比我更加有说服力,到2020年精准医学带来的产业的总份额可以到1.89万亿美金,1.89万亿美金在国家的GDP占可观的比例,所以从医疗概念上的变化到产业产值和生产结构的变化,也许是引起各国领导人重视的更加深刻的背景。

因此精准医学研究已经成为新一轮国家科技竞争和引领国家发展潮流的制高点,很多人把精准医学和国家发展政策相关联了。美国开展精准研究,我不详细讲了,最明显的是美国要测100万自然人的遗传密码。他会测100万人,进展很快,大约一个月以前已经测了68万人,这个进展非常快。

欧盟也在开展精准医学计划,它的计划某一种意义上和美国互补,他要测10万个肿瘤和罕见病的遗传密码。这个和每年100万的自然人可以分析,就找出真正恶性疾病相关的片段。

日本也执行了它的精准医学计划,那么我想,精准医学到底在哪几个方面导至产业的变革呢?我想至少可以推动如下四个方面的产业,具体来升级或者出现百万量级的生物库。

首先,我们知道这些样本有一个百万量级样品的收集,收集以后要保管,同时要提供相关的组学的材料,然后还要分配给相应单位使用,那么怎么做到这一点?一定有一个相当巨大规模的样本库的设施,这样才能保证,百万量级的数据是为了测量组学数据,测量以后有相应的数据库,即会促进生物样本库和数据库的发展。

我们海量的数据不是目的,目的是挖掘,挖掘两个非常宝贵的东西,一个是疾病诊断的分子标记,这是过去没有的海量数据,我们把海量数据,比如说肿瘤、肝癌、肺癌相关的挖掘出来变成数据库,变成这个疾病有哪几个位点变化,这样就会对很多严重疾病的早期发现,或者现在不能发现的能得到发现,这是非常非常重要的。我们知道,现在我们疾病诊断的诊断率很低,很多肿瘤70%、80%看不准,因为大量的分子标记没有发现,我们有了海量数据以后就可以发现这个分子标记,我们就有救了。

第二点数据收集出来要测量基因组等等,所以第二个推动的产业就是以基因组测为代表的组学测量公司。这个发展非常快,我不知道他们怎么生存,如果只靠降低价格,90%都会死亡的。现在很多都在测,有人估计到了2018年的话,整个的基因测序的产业规模可以到117亿美金,我想这是一年前估计的数据,过于保守,一个人600块,中国13亿人,远远大于这个数。

第三个产业就是,发现新的药物治疗的靶点来设计新的药物。大家知道一个药物,美国的沃克公司最近有一个药,每年的销售额是百亿美金,我们通过大数据分析得到非常多的跟疾病相关的药物的把点。我自己认为这个产业讲是性能价格比最好的产业,谁优先把这个大数据挖掘,谁就优先得到治疗这个疾病的标记。

第四个产业就是,新的概念下,精准医学需要新的设施,这个设施会缔造千亿美金的产业。

所以至少在四个方面能够促进新的精准医学产业的发展。我国的精准医学的目标,跟国际是一致的。

三 实现精准医学要建立哪些基础 

要实现精准医学需要具备两个基础,一个叫组学大数据的基础,我们知道要实现精准医学首先得得到获取组学数据,但是获取的组学数据谁也读不懂,所以必须利用大数据的分析的理论技术和方法,因此要获得分子水平和疾病相关的知识必须把组学数据的获取和大数据挖掘这当前两大前沿领域有机的融合起来,才能得到跟疾病相关的知识。所以第一个基础是组学大数据的基础,没有组学没有大数据我们就不能够得到有效的知识。

实际上有很多数据只利用了很少的一部分,我们基因组充其量利用了3%,97%都没有挖掘,所以我们有巨大的潜力。

第二个基础就是把分子基础的变化和当前的影像学、生化学结合起来。我发现一些测序公司为了宣扬自己的能力,说测了什么都可以解决了,实际上这是不对的,是片面的,精准医学是建立在现代临床基础上,是相关的,没有现在临床的结合,精准医学独自是不能实现目标的。

四 精准医学现在走到哪一步了?

我自己的观点是精准医学刚刚上路,为什么呢?因为在精准医学这个概念下,我们用精准医学的核心来衡量,我们离达到这个目标差很远,我们遇到了非常大的困难和挑战。所以我利用这个机会讲一点点困难,挑战是非常多的。

在组学当中,在遗传密码当中只讲一个挑战,这个挑战就是基因组当中的暗信息,我们的遗传密码也存在暗信息。大家知道我们的遗传密码,我们现在可以花五六千可以测得完整的遗传密码。今年年底可以花六七百测得遗传密码。

我们的问题是,这个遗传密码现在我们把全世界生物医学领域的知识集中起来,我们能读懂他多少?我告诉大家,现在的科学进展告诉我们,这个遗传密码你可以很容易测得,但是真正从根本上从规律上能懂的部分不超过3%,我们称之为遗传密码当中的编码序列,也就是大家从中学就了解的遗传密码当中早蛋白的遗传密码,那些遗传密码的规律我们是知道的,因为我们知道中性法则,所以规律我们都知道了。这一部分我们只占到3%。

我当时参加了基因组计划,当时测完了,我是搞数据分析的,就找不到基因,最后我们以为我们自己的能力优先,20年前觉得有差距,最后20多个国家谁都找不到。真正过去我们认为编码蛋白的部分其实没有那么多。刚开始认为可能有10%吧,后来又少了一点,觉得又是5%吧,现在的看法大约充其量3%,这是对遗传密码认识的将近。

另外97%不是用来造蛋白的,这一部分我们叫遗传密码当中的非编码序列,这个非编码序列是很重要的,作为规律来讲,我们迄今为止,在这种情况下如何做到精准了,测了一个遗传密码只有3%,另外97%干什么的都不知道。

所以从这个简单的例子就可以看到,其实我们精准医学才处在起步阶段,我们的起步点就是分析3%,我们随着全世界科学家的努力不断的努力,这样才能做到精准。这一件事其实比其他问题都好解决,大家只要查这一篇文献就可以,大家可以看2010年12月17号的Insights。也就是说离我们最近的10年,如果把自然科学所有的领域加在一块,哪10个事最值得人们关心,第一个事就是基因组当中的暗物质,也就是指的基因组当中现在不掌握的遗传密码。迄今为止我们仅有1.5%的遗传密码是知道归位的,充其量不到3%,所以97%的遗传密码可以测得,但是不知道生物学的作用。

第一个挑战很明确不说了,生物数据同样是大数据,我们一个人就是1乘10的9次方,如果把这些都加在一起就远远比这个多,但是对人来说,一个特点增速非常快,由于测量速度的价格越来越便宜,所以它的速度是我知道的增速最快的数据,第一天和第二天就不一样。第二个质量目前不太好,有缺失质。这个大家知道是,这是我们双螺旋结构的发现者沃森,他发现了DNA双螺旋。

这是他自己的遗传密码,当时大约是人类会遗传密码10年以后,测他的遗传密码花了100万美金放在小盒子里,我想他看了小盒子,实际上我们知道了一些东西,但是大部分东西存在这儿,依然不知道小盒子的含义是什么。但是我们知道现在在座的马俊才教授在这儿。人的健康状态,不仅和人有关,还和肠道、唾液、微生物是相关的,如果把微生物一块测的话,存在跟人的微生物的在一起大约是人的10到100倍,这个量很多。这个不详细讲。

但是从样本源来讲,虽然我们的数据源很大,但是比如说我们要研究肿瘤,你要得到样品,你要研究肺癌,找100个肺癌的人就很难了,我跟协和的肿瘤医院院长合作,他应该是最容易得到肿瘤的,我们两个大约收集了很长时间,收集了150个试管林癌的样本,你要做某一个相关疾病的特定样品很难的。比如说肿瘤,像心脑血管病,实际上都是多基因病,它的自变量是千数量级的,但是你得到的样本,是百数量级的,这个模型是不熟练的,这样的变量都是几千个,你只能收集几百个。

所以怎么办?国际和国内,精准领域的办法就是测10万,100万样品的人群,这样的话,我的样品量的就大量的体积量数,作为我们研究组来讲,办不到这点,没有那么多钱,我们只能找到子系统,分解出子系统的自变量数,这样的话才能解决这方面的问题,这是在数据处理当中的第二个挑战。

第三个挑战,实际上同样一种疾病,发生的微观的不一样的,发生肺癌这个人是这点变了,那个人那点变了,好不容易收集了肺癌病人,他分布在10个位点上,所以这种有效事件不是百分之百出现的,是按一定频率出现的。因此我们从组学水平提出分子水平的概念,就是共同的疾病,什么是分子疾病的共同的基础,什么是个体差异,这个需要在新的组学意义上定义。

最后一个,影响某一个疾病不仅仅是每一个基因的变化,大家知道你得了肿瘤不仅仅是基因的变化,还有基因和基因的相互作用,所以,一定还要考虑个个遗传密码的相互作用,也就是说复杂的网络,包括信号传导网络,包括大分子相互作用网络,包括调控网络等等。但是,大家知道这些复杂网络是动态的,一个生命是活的,由于网络之间都是有目的的,所以它是有向的,这个复杂网络是双向的,而且本身不是单一的。

所以它可能是双色和多色的,网络和网络之间的关系是,对一个动态有向组成的非线性的网络是复杂的,数学上挑战。我们不仅仅是组学的,还要组合影像学的,有的做核磁,有的做CT。

数据共享的问题,我们知道要做大数据,现在每个医院都存在在数据,怎么在国家层面上数据共享,不仅仅是科学问题,还有管理问题,共享问题,没有大数据的共享,那就是我们在大数据的时代做小数据的工作,所以这个问题实际上是更难解决的问题。

五 这些困难对我们来讲是无限的创新机遇

我举一个例子,基因组的研究,我们的遗传密码知道3%,97%都不知道,对精准来讲是很不利的,但是对于创新来讲,但是是绝对的创新机遇。所以创新重大的机遇对我们的激动和鼓舞。

从遗传密码来讲,我们有97%不知道,问题是这97%是否有用呢?我们来看看这是不同净化水平的,这个是大肠杆菌,这个生物,如果测它的遗传密码,它的遗传密码很小,整个遗传密码整个圆盘算它的遗传密码,红色部分就是掌握归类的,85%都是用来编码蛋白的,所以对一个大肠杆菌来讲,把遗传密码测了就知道它是怎么活的。但是上面中间的酵母,就要高等一点,然后我们已知归类的部分减少了,变成70%。

大家知道从信息传递的观点来讲,任何一个基础遗传要发挥生物学作用,所谓信息发放发表,就是要产生一个由它制造出来的东西,所以人们当了解这97%是有用的时候,就去找这97%的遗传密码有没有产物有没有信息发放。这个结果从人类进入21世纪以后发现来自那97%,所以这两点事实上让我们不怀疑这10%每时每刻发生着重要的作用。

下面我给大家举几个跟肿瘤相关的例子,虽然97%没有破译,但是人们关心这个变化是否会导至肿瘤。

第一个例子是,有一个东西来自那97%,最后它也发放信息,这个发放出来的信息没有蛋白,但是它产生的RA会导至前列腺癌。

这个是如果大家玛拉可(音译),会导至非小细胞肺癌。因此你去医院看肿瘤,检查只用了3%的信息,另外的97%没有用,因为没有这个知识。只检查3%,你得了肿瘤你能判断得准吗?因为那是97%引起的。

所以现在的状况是这样的,因此治疗的话也没有把97%的变化肿瘤作为治疗的法典,所以如果是97%得的肿瘤是没有办法治的。

所以从这个意义上讲,包括肿瘤、心脑血管病,代谢疾病大部分疾病没有发现,大部分可以设计药物的把点都没有发现,所以这是巨大的机会和财富。这是我们跟协和做的例子,可以找到97%的例子来预测食管淋癌,我们做的干细胞,还有和免疫有关的,不详细讲了。

下面给大家说两个,一个是这97%都是元件,那3%元件大概是两万五千个。我举一个日本的例子,小鼠可以做参考,目前为止十六万一千个,目前我们只发现2000个,现在还有这么多等着大家发现。

另外一个例子,大家知道那是97%研究的科学家,是2006年一位研究97%产生长度比较小的,获得诺贝尔奖的。我们虽然有巨大的挑战,但是一个挑战给我们引发出无限的机会,所以非编码的研究对疾病的诊断治疗会有全新的平台,或者为全新的药物的设计和研发提供方向,提供全新的思考。
声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部