Nat Commun | 刘芝华/苏建忠/陈洪岩构建多模态分析框架EMMA,可检测早期食管癌和癌前病变

食管癌(EC)是最常见的胃肠道恶性肿瘤之一。食管鳞状细胞癌(ESCC)是EC的主要组织学亚型,约占新发EC病例的88%,具有异质性高、进展快、预后差等特点;早期ESCC患者缺乏特异症状,首次就诊时多处于中晚期,5年生存率较低。相比之下,早期ESCC(如黏膜内ESCC)以及癌前病变(如上皮内肿瘤IEN、食管高级别上皮内瘤变HGIEN)可通过内镜整块切除,实现近100%的5年疾病特异性生存率,无需系统性治疗。因此,早期检测对于提高ESCC患者的生存率和生活质量至关重要。

目前,碘染色内镜检查仍是诊断ESCC及其癌前病变的金标准,但其依从性低且成本较高,无法在实际临床环境中广泛应用。液体活检方法能够检测血浆游离细胞DNA(cfDNA)中的循环肿瘤DNA(ctDNA),为无创早期癌症检测提供了一个有前景的途径。近年来,随着cfDNA生物学的进步以及相关数据的增长,高精度检测肿瘤特异性改变成为可能,包括遗传学、表观遗传学和片段组学特征。此外,全基因组cfDNA甲基化也成为当前癌症检测最有希望的生物标志物,优于片段化特征和遗传变异,但基于甲基化的ctDNA检测方法仍存在一些挑战。

近日,中国医学科学院肿瘤医院 刘芝华、陈洪岩 团队与温州医科大学眼科医院 苏建忠 团队合作在 Nature Communications 上发表了题为“Multimodal analysis of cfDNA methylomes for early detecting esophageal squamous cell carcinoma and precancerous lesions”的文章。研究团队对来自230名非转移性ESCC或癌前病变患者和230名匹配健康对照(HC)的460份cfDNA样本进行全基因组亚硫酸盐测序(WGBS),并开发了 一个扩展的多模态分析(EMMA)框架,可同时识别cfDNA WGBS数据中与癌症相关的cfDNA甲基化、拷贝数变异(CNV)和片段化特征

结果显示, EMMA显著提高了ESCC的检出率,将AUC从0.90提升至0.99;并在验证队列中检测到87%的ESCC和62%的癌前病变,特异性>95% 。综上,该研究证明了cfDNA甲基化组的多模态分析在ESCC早期检测和分子特征监测中的潜力。

文章发表在 Nature Communications

为增强对ESCC的早期检测,研究团队基于“组织-cfDNA-组织”策略开发了EMMA框架 (图1)。首先,通过配对的WGBS和全基因组测序(WGS)数据,从155例ESCC患者的原发肿瘤和匹配邻近非肿瘤组织中鉴定出ESCC来源的差异甲基化区域(DMRs)和CNVs。随后,检测cfDNA WGBS数据中ESCC来源DMRs和CNVs,并计算其中短cfDNA片段比例作为片段大小比(FSRs)。接下来,采用基于随机森林的机器学习框架,利用包含150例ESCC患者和150例匹配HCs的数据集,分别选择DMRs、DMRs+CNVs以及DMRs+CNVs+FSRs等特征构建了不同的诊断模型,评估其性能。此外,研究团队还将最佳DMRs与配对ESCC组织样本中基于多组学的综合分子亚型、肿瘤微环境(TME)、存活率和转录组特征相关联。

该研究涵盖多个研究队列(CHCAMS等),共纳入460名参与者,涉及ESCC、癌前病变(HGIEN、IEN)患者和230名HC,分为发现/训练队列、外部验证队列、癌前验证队列 。在进行医疗干预前,研究团队从每位参与者身上收集了中位数为 2 mL 的血浆,并用WGBS评估了每位参与者的cfDNA甲基组,460份cfDNA样本的参考基因组覆盖率约为 89%,平均深度为9.51x。

图1:研究设计与患者招募。
为量化cfDNA样本中ctDNA的比例,研究团队使用计算框架计算了“cfDNA恶性比率”。在cfDNA中,通过比较CHCAMS中150例ESCC患者和150例HC的WGBS数据,鉴定了650个DMRs;随后计算每个样本中每个DMR的cfDNA恶性比率,并利用其生成预测模型。结果显示, 有50个DMRs在区分恶性和良性血浆样本方面性能最好,因此选择这些DMRs构建最终预测模型——ESCC-cfMeth评分 。在发现、外部验证及癌前验证队列, ESCC-cfMeth评分的AUC分别为0.90、0.89和0.87,准确性分别为82.33%、85.00%和78.00%

在发现和外部验证队列中,ESCC患者的ESCC- cfmeth评分均显著高于HC。值得注意的是,癌前验证队列中IENs患者的ESCC-cfMeth评分也有所增加,但随着ESCC疾病进展,评分并未进一步增加,这意味着评分可以反映包括癌前病变在内的早期疾病的生物学特征,但不能作为肿瘤进展的指征。上述结果表明, cfDNA甲基化特征在ESCC诊断中具有可靠性和可解释性,且在ESCC进展中存在潜在功能相关性

图2:ESCC的cfDNA甲基化标记及其检测性能。

除cfDNA甲基化标记外,研究团队还分析了cfDNA来源CNVs对ESCC诊断的价值 :利用WGS数据作为金标准,在ECGEA队列中鉴定了ESCC来源体细胞CNVs;并开发一种基于WGBS的方法,识别组织和cfDNA样本中的复发性CNVs。结果显示, 大多数在WGS数据中鉴定的CNVs,在组织样本的配对WGBS数据均被成功识别

研究团队使用ichorCNA表征了cfDNA中的CNV概况,并重点研究了在≥3 cfDNA样本中出现复发性CNV的区域。 与HC相比,ESCC患者中有153个区域的CNV事件发生率显著更高,包括111个扩增区域和42个缺失区域 。值得注意的是, CNV事件的发生率从HGIEN开始逐渐增加,并与癌症分期和分级呈正相关。 上述结果凸显了 cfDNA中的CNV事件在健康个体中的高特异性,及其与肿瘤进展和晚期疾病的正相关性

图3:回顾并分析cfDNA WGBS数据中的CNV事件。

为进一步揭示cfDNA的多模态特征,研究团队对发现队列中的cfDNA片段大小特征进行全面分析,通过评估cfDNA中短片段与人类基因组的比率计算了FSR。结果显示, 在5-Mb bins范围内共产生579个FSR特征;与HC相比,在ESCC中发现了83个FSR明显升高的bins,表明cfDNA片段发生了位置依赖性变化 。在发现队列和外部验证队列中,与匹配HC相比,ESCC患者上述83个选定bins中的平均FSR明显更高;但癌前病变队列IEN患者中未观察到这现象。 FSR在ESCC和IEN之间的不同表现表明,短cfDNA片段大小的比例与肿瘤进展之间存在潜在相关性

图4:分析WGBS数据中的cfDNA片段大小。

为提高诊断能力,研究团队将遗传和表观遗传特征整合到了一个综合的EMMA模型中。特别地, 50个最佳DMRs和153个CNV区域主要位于人类基因组的不同区域;74.54%最佳DMRs位于选定的83个FSR区域内;CNVs与FSR区域重叠也较少 。对于153个区域的CNV和83个bin中FSRs特征,研究团队为每种模态创建了两个复合参数,并 在发现队列中开发、验证了两个组合诊断模型 :一个将50个DMRs与两个CNV参数结合(DMR+CNV模型);另一个将50个DMRs与两个CNV参数和两个FSR参数结合(EMMA模型)。与ESCC-cfMeth评分相比, 两个组合模型在10倍交叉验证、外部验证队列和癌前验证队列中表现出显著改善的性能

为实现95%以上的特异性,研究团队选择了一个截断点用于EMMA模型。与ESCC-cfMeth评分相比,在外部验证队列中EMMA模型将灵敏度从70%提高到87%,在癌前验证队列中从50%提高到62%。总体而言, EMMA模型将IENs的检测率提高到62%,将I、II期的检测率分别提高到78%、83%,将III期的检测率提高到93%

研究团队使用ESCC-cfMeth和EMMA对已发表的中国ESCC患者基线数据进行分析, 来评估提高早期ESCC和癌前病变检测率的潜在益处 。结果显示, 当采用两种方法在患者IEN阶段进行早期检测和干预时,可提升中国ESCC患者的5年总体生存率 :ESCC-cfMeth模型的5年总体生存率潜在增加范围为26.90%-35.25%;EMMA模型为 33.87%-41.95%。 与仅利用cfDNA甲基化的ESCC-cfMeth模型相比,整合多模态数据的EMMA模型在假设临床情景中展示出更高的生存益处 。综上,cfDNA甲基化标记在早期阶段和癌前病变中的表现优于CNV和片段化特征,多模态分析可以进一步提高其检测性能。

图5:三种cfDNA特征的互补性及组合模型的性能。

最后,研究团队评估了ESCC-cfMeth模型中50个DMRs在ESCC分子亚型中的价值,依据平均甲基化水平将ECGEA 队列中155名ESCC患者分成三组,即甲基化优势、适中和贫乏组。ESCC通常包括CCA、NRFA、IS和IM等四种亚型。结果显示,与甲基化适中、贫乏组相比,甲基化优势组中CCA亚型比例更高、IM亚型比例较低。接下来,研究团队研究了上述三组的TME成分,发现 与其他两组相比,甲基化优势组中上皮细胞更多、免疫细胞更少 。这些结果揭示了cfDNA甲基化标记物在ESCC分子亚型鉴定和指导治疗决策方面的潜在作用。

图6:ESCC cfDNA中DNA甲基化标记的生物学意义。

综上所述,研究团队开发了一种名为EMMA的综合分析方法,能同时识别差异甲基化区域(DMRs)、CNVs和片段化特征,以实现ESCC的超早期检测。该方法使人们能够分析cfDNA中ESCC的表观遗传和遗传特征的互补性、时间动态和检测效率,可确定最佳cfDNA甲基化特征的生物学相关性。该模型不仅显著提高了ESCC的无创检测能力,还具有动态分子监测和指导治疗潜在价值。

参考文献:
Liu, J., Dai, L., Wang, Q. et al. Multimodal analysis of cfDNA methylomes for early detecting esophageal squamous cell carcinoma and precancerous lesions. Nat Commun 15, 3700 (2024).
https://doi.org/10.1038/s41467-024-47886-1
·END·

THE END