Nature综述！如何用好癌症研究中的大数据

2022-9-13 15:19| 发布者: 沙糖桔| 查看: 2684| 评论: 0|来源: 小桔灯网 | 作者：动力彩虹

摘要: 最后讨论了推动癌症大数据应用的当前挑战和未来步骤。

癌症是一个复杂的过程，其进展涉及患者体内的多种过程。因此，癌症研究界产生了大量的分子和表型数据，以尽可能全面地研究癌症特征。在高通量技术突破的推动下，组学数据的快速积累产生了癌症“大数据”的概念，我们将其定义为具有两个基本属性的数据集；首先，它包含丰富的信息，可以为基本问题提供新的见解；其次，它的分析需要一个大型计算机基础设施，而不仅仅是单个研究人员可用的设备。

大数据并非癌症领域独有，在许多科学学科中发挥着重要作用，尤其是宇宙学、天气预报和图像识别。然而，癌症领域的数据集在几个关键方面不同于其他领域。首先，癌症数据集的大小通常明显更小。第二，癌症研究数据通常是异质的，可能包含许多测量细胞系统和生物逻辑过程不同方面的维度。现代多组学工作流程可以生成单细胞的全基因组mRNA表达、染色质可及性和蛋白质表达数据。每种模式的数据规模相对有限，且各模式之间的高度异质性要求开发创新的计算方法，以整合不同维度和队列的数据。

近日，来自美国的研究团队在杂志Nature Reviews Cancer上发表了一篇题为“Big data in basic and translational cancer research”的文章。在本综述中，研究团队回顾并讨论旨在利用大数据集进行癌症发现的数据分析方法。然后介绍了目前在临床导向的转化研究中对大数据进行整合的努力。最后讨论了推动癌症大数据应用的当前挑战和未来步骤。

图片来源：Nature Reviews Cancer

通用数据类型

癌症研究中有五种基本数据类型：分子组学数据、扰动表型数据、分子相互作用数据、成像数据和文本数据。

分子组学数据描述细胞系统和组织样本中分子的丰度或状态。这些数据是癌症研究中从患者或临床前样本中产生的最丰富的数据类型，包括关于DNA突变（基因组学）、染色质或DNA状态（表观基因组学）、蛋白质丰度（前组学）、转录物丰度（转录组学）和代谢物丰度的信息（代谢组学）。此外，基因组和转录组读数可以包括空间信息，揭示不同区域内的癌症克隆进化和与克隆特异性基因表达变化。

扰动表型数据描述了细胞表型，如细胞增殖或标记蛋白丰度，在药物治疗后如何改变。常见的扰动实验包括使用CRISPR敲除、干扰或激活；RNA干扰；开放阅读框的过表达；或者用药物库进行治疗。

分子相互作用数据描述了分子通过与不同伙伴相互作用的潜在功能。常见的分子相互作用数据类型包括蛋白质-DNA相互作用、蛋白质-RNA相互作用、蛋白-蛋白质相互作用和3D染色体相互作用。

健康记录、组织病理学图像和放射学图像等临床数据也具有相当大的价值。

癌症研究中常见的分子组学数据类型。图片来源：Nature Reviews Cancer

数据库和分析平台

研究团队概述了癌症研究的关键数据资源，分为三类。第一类包括来自系统生成数据的项目的资源；例如，TCGA生成了33种癌症类型，10000多个癌症基因组和匹配的正常样本的转录组学、蛋白质组学、基因组学和表观基因组学数据。第二类描述了展示来自上述项目的已处理数据的存储库，如Genomic Data Commons。第三类包括Web应用程序，这些应用程序系统地集成了不同项目的数据，并提供交互式分析模块。例如，TIDE框架系统性地从免疫肿瘤学研究中收集公共数据，并提供互动模块，以研究肿瘤免疫逃避和免疫治疗反应的途径和调节机制。

本综述中详细列举了可用的3类数据资源，感兴趣的同学可自行在文中查找。

数据整合分析

整合来自多个中心或研究的数据集可以获得更稳健的结果和潜在的新发现。跨队列聚合的一般方法是获取与新研究主题相关或与新数据集具有类似研究设计的公共数据集。然而，使用公共数据进行新的分析具有挑战性，因为每个公布数据集背后的实验设计都是独特的，最近的数据管理框架提供了自然语言处理和半自动功能，以将具有异构元信息的数据集统一为可用于算法分析的格式。

也可以利用现有数据进行新的发现。数据重用有助于开发新的实验测试。例如，现有肿瘤全外显子组测序数据用于优化循环肿瘤DNA测定，由此产生的循环肿瘤DNA分析可通过检测从不同肿瘤部位释放的DNA的变化，提供治疗抗性和癌症复发和转移的综合视图。

大数据助力临床转化

许多临床诊断和决策，如组织学解释，本质上是主观的，大数据方法可以提供系统和客观的补充选项，以指导诊断和临床决策。

从数据队列中训练诊断生物标志物

癌症转化大数据研究的一个主要重点是开发用于预测疾病风险的基因组学测试。与通过生物机制和经验观察发现的生物标志物不同，大数据衍生测试分析来自许多患者和队列的基因组学数据，以生成用于临床分析的基因特征。

从大数据训练而来的诊断生物标志物测试的例子包括雌激素受体（ER）或孕激素受体（PR）阳性乳腺癌患者的预后分析，辅助内分泌治疗单独即可为ER/PR阳性、HER2阴性的早期乳腺癌患者带来足够的临床益处。

分子数据指导的临床试验

全基因组和多模式数据已开始在前瞻性临床试验中匹配患者，特别是研究精确治疗的患者中发挥作用。例如，WINTHER试验根据来自实体肿瘤活检的DNA测序或RNA表达数据，前瞻性匹配晚期癌症患者接受治疗。此类治疗与组学数据匹配，通常导至标签外用药。WINTHER研究得出结论，这两种数据类型对于改善治疗建议和患者结局都有价值。

随着这些初步成功，新兴的临床研究旨在收集大量样本序列之外的额外数据，如各种药物治疗后的肿瘤细胞死亡反应或纵向患者样本中选择的scRNA序列数据，以研究治疗反应和耐药性机制。除肿瘤样本产生的组学数据外，跨模态数据整合是改善治疗推荐的潜在策略。其中一个有希望的方向涉及synthetic lethal interactions的研究和应用，一旦与肿瘤转录组学文件整合，可准确评估药物靶点的重要性，并预测许多抗癌治疗的临床结果，包括靶向治疗和免疫治疗。预计这种新的数据模式和分析将为设计临床试验提供额外的方法。

用于数据驱动癌症诊断的人工智能

基因组学数据集，如基因表达水平或突变状态，通常可以在基因维度上彼此对齐。然而，临床诊断中的数据类型，如成像数据或文本报告，可能不会以任何明显的方式在样本之间直接对齐。基于深度神经网络的人工智能方法是一种新兴的方法，用于将这些数据类型集成到临床应用中。

人工智能在分析成像数据方面最常用的应用包括临床结果预测和肿瘤检测，以及根据H＆E染色的组织进行分级。除了组织病理学，放射学是人工智能成像分析的另一种应用。使用3D计算机断层扫描体积的深度卷积神经网络已被证明可以预测肺癌风险，其准确性与经验丰富的放射学家的预测相当。

新的人工智能方法开始在生物知识发现中发挥作用。例如，对与结直肠癌生存预测相关的聚类显示，高风险生存预测与肿瘤-脂肪特征相关，其特征是与脂肪组织相邻的肿瘤细胞分化较差。尽管这种关联的分子机制尚不清楚，这项研究提供了一个发现成像特征的例子，可以帮助癌症生物学家精确定位新的疾病机制。

借助大数据分析的新疗法开发

开发新药成本高、时间密集且失败率高。新疗法的开发是大数据应用的一个有前景的方向。

大数据已被用于帮助现有药物的重新用途，以治疗新疾病。通过挖掘4000多万份文件，在疾病、组织、基因、途径和药物之间创建12亿个边缘的网络，一项研究显示， vandetanib和everolimus的组合可以抑制ACVR1，作为扩散型内因性脑桥神经胶质瘤的潜在治疗。

最近的研究结合药理学数据和人工智能设计新药。基于现有DDR1抑制剂和化合物文库的信息，使用深度生成模型设计新的小分子干扰受体酪氨酸激酶DDR1，其中主要候选物在小鼠中表现出有利的药代动力学。

AI还可用于目标蛋白质结构上生物活性配体的虚拟筛选。假设生物化学相互作用是化学基团之间的局部相互作用，卷积神经网络可以全面整合来自先前虚拟筛选研究的训练数据，以优于先前对接方法。

使用生成人工智能模型设计新的激酶抑制剂。图片来源：Nature Reviews Cancer

挑战和未来展望

尽管许多大数据进步令人鼓舞，令人印象深刻，但在癌症研究和临床中的大数据应用方面仍存在巨大挑战。组学数据通常存在队列间的测量不一致性、显著的批次效应和对特定实验平台的依赖性。这种缺乏一致性是临床转化的主要障碍。除了这些技术挑战之外，还存在结构性和社会挑战，可能阻碍整个癌症数据科学领域的进步。

数据可用性不理想

癌症数据科学的一个关键挑战是数据和代码的可用性不足。这个瓶颈的一个可能原因与数据发布策略和数据管理成本有关。此外，数据可能缺少关键信息，例如单细胞测序数据的细胞条形码缺失，或者组织病理学数据的低分辨率图像缺失。

这些问题的缓解将需要资助机构执行有关公共数据可用性的政策，以及更多社区努力检查开放数据访问的实现情况。具体而言，使患者肿瘤测序和临床数据的大型存储库可供合作机构的研究人员在线查询。

数据规模差距

可用于癌症治疗的数据集远远小于其他领域的数据集。造成这种差距的一个原因是，医学数据的生成依赖于受过专业培训的科学家。为了缩小数据规模差距，将需要更多的投资来自动生成至少某些类型的注释医疗数据和患者组学数据。此外，生物医疗数据的可用性通常受到人群遗传背景的限制。例如，东亚、欧洲和美国人群中可操作突变的频率可能不同。

数据规模差距的另一个原因是癌症临床和生物学研究缺乏数据生成标准。例如，大多数临床试验尚未收集患者的组学数据。随着测序成本的指数下降，临床试验中组学数据的收集应显著扩大，并可能成为强制性标准要求。此外，当前的数据存储库没有共同的元语言标准，它们的合并将显著改进应用于其分析的算法的开发。尽管半自动化框架正在变得可用于同质化元数据，但基础解决方案应该是在关键领域建立通用词汇表和系统元信息标准。

结论

数据科学和人工智能正在通过各种各样的应用改变我们的世界，如自动驾驶汽车、面部识别和语言翻译，以及在医学领域，放射学和病理学中的图像解释。我们已经有了可用的肿瘤数据，通过跨模式整合、跨队列聚合和数据重用，促进癌症的生物医学突破，并且在生成和分析此类数据方面取得了非凡的进展。然而，大数据在该领域的状态是复杂的，我们应该承认癌症的“大数据”还没有那么大。全球研究界未来在扩大癌症数据集方面的投资将至关重要，这将有助于更好的计算模型推动基础研究、癌症诊断和新疗法的开发。

声明：

1、凡本网注明“来源：小桔灯网”的所有作品，均为本网合法拥有版权或有权使用的作品，转载需联系授权。
2、凡本网注明“来源：XXX（非小桔灯网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有，如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

收藏邀请

上一篇：Nature 子刊丨CRISPR/Cas9基因组编辑的安全性？下一篇：低成本高准确率秒杀Microarray！创新技术用于HPV基因分型

Nature综述！如何用好癌症研究中的大数据

声明：

最新评论

相关分类

官方推荐 /3

个人中心