前沿分享 | 癌症研究新篇章:深度学习合成增强多组学数据集

文献概述

近期,在 Nature Communications 上发表的创新性研究,介绍了MOSA模型。这是一种无监督深度学习工具,用于整合和增强癌症细胞系的多组学数据集,通过合成数据提高统计能力并揭示与药物抗性相关的新机制,为癌症研究和治疗提供宝贵的资源。

研究背景及目的

在癌症生物学的研究中,整合不同类型的生物学数据对于全面理解癌症至关重要。然而,由于数据的异质性、复杂性和稀疏性,这一过程充满挑战。为了解决这些问题,本研究介绍了一个无监督深度学习模型MOSA(Multi-Omic Synthetic Augmentation),专门设计用于整合和增强癌症依赖性图谱(DepMap)的多组学数据。

研究内容及方法

MOSA模型通过利用正交的多组学信息,成功生成了分子和表型特征,使得多组学特征的数量增加了32.7%,为1,523个癌症细胞系生成了完整的DepMap。 这种合成增强的数据提高了统计能力,揭示了与药物抗性相关的机制,并有助于识别遗传关联和癌症细胞系的聚类。
研究者们采用了深度生成模型,特别是变分自编码器(VAE),来提供更复杂的底层生物数据的表述。MOSA模型( 见图1 )整合了超过1,500个癌症细胞系的多组学数据集,并利用SHAP(SHapley Additive exPlanations)值进行模型可解释性分析,以促进对潜在生物学机制和药物靶标的识别。

图1  MOSA示意图

主要发现

1. MOSA在独立药物反应和蛋白质组学数据集上展示了其生成能力,并准确恢复了癌症组织起源的聚类。
2. MOSA提高了寻找与CRISPR-Cas9基因必需性筛选相关的基因组关联的统计能力。
3. 通过MOSA合成筛选的癌症细胞系揭示了与基因组特征一致的脆弱性,例如FLI1-EWSR1融合依赖性。
4. MOSA作为一个完整的多组学特征增强工具,通过增加32.7%的可用筛选数量,提高了多组学数据集的规模和质量。

研究结论

MOSA通过增强1,523个癌症细胞系的多组学特征,为实验设计提供了指导,并加速了最有希望的目标的验证。展望未来,该模型可以轻松适应整合其他类型的数据模式,如成像,进一步促进分子/表型关联的发现。通过应用MOSA模型,研究者们能够更深入地理解癌症细胞状态、药物抗性及其背后的机制,为癌症治疗提供了新的视角和工具。

文献来源:

Cai, Z., Apolinário, S., Baião, A. R., Pacini, C., Sousa, M. D., Vinga, S., Reddel, R. R., Robinson, P. J., Garnett, M. J., Zhong, Q., & Gonçalves, E. (2024). Synthetic augmentation of cancer cell line multi-omic datasets using unsupervised deep learning. Nature communications, 15(1), 10390. https://doi.org/10.1038/s41467-024-54771-4

原文链接:

https://www.nature.com/articles/s41467-024-54771-4

分享者简介

邓佳荣
重庆大学智能肿瘤学教育部医药基础研究创新中心博士研究生。 曾参与2项国家自然科学基金面上项目,目前已发表文章4篇,以第一作者身份发表文章2篇,总影响因子>20。

编辑|曾海蓉 李劲

THE END