Nat Med|卡罗林斯卡医学院团队最新研究表明:AI模型在卵巢癌超声检测方面胜过人类专家

卵巢癌是女性常见的恶性肿瘤之一,死亡率高居妇科恶性肿瘤之首,预后较差 ,易复发和转移。 经阴道超声检查是区分卵巢良性和恶性病变的主要技术,具有广泛的可用性和高诊断准确性特点。 但是在经验不足的检查人员中, 诊断的准确性和检察人员之间的一致性往往相当低,这可能导致诊断延迟和误诊 以及不必要的治疗。 活检可能导致卵巢恶性肿瘤扩散,使预后恶化,因此不被推荐。 目前,即使在发达国家,也严重缺乏专业超声检查人员,这为医疗保健系统带来了沉重的负担。

已有研究表明,人工智能(AI)驱动的诊断工具是一种潜在的解决方案,卷积神经网络架构的神经网络在卵巢病变分类方面获得了有希望的结果。但在临床实践中,由于收集规模和多样性限制,训练数据集难以捕捉临床数据的全部变异并具有普遍代表性,因此AI模型可能无法适应训练数据中未捕获的新变化,导致性能不佳。利用验证普遍性的大规模多中心研究可以提供必要的证据,增强对临床使用AI驱动的诊断支持系统的信任和信心。

瑞典卡罗林斯卡医学院团队开展了一项国际多中心回顾性研究OMLC-RS( the Ovarian tumor Machine Learning Collaboration - Retrospective Study),评估了神经网络在超声图像中区分良性和恶性卵巢肿瘤的能力。 1月2日,研究团队在《自然医学》上发表的最新研究数据表明,AI模型可以显著提高卵巢癌诊断的准确性。研究人员开发的AI模型优于人类专家,准确率达到86.3%,专家准确率为82.6%,非专业超声医护人员的准确率为77.7%。

文章通讯作者、卡罗林斯卡医学院Elisabeth Epstein教授表示:“卵巢肿瘤很常见,但往往是偶然发现的。世界上许多地方都严重缺乏超声专家,这引起了人们对不必要的干预和癌症诊断延迟的担忧。因此,我们想要开发相应AI工具,分析AI是否可以补充人类专家的诊断。”
研究团队使用了使用OMLC-RS数据集训练了19个基于变压器的神经网络模型。 该综合数据集数据包括来自8个国家20个中心3,652名患者的17,119张超声图像,这些超声图像来自来自9家制造商的21种不同超声系统。 同时,研究建立了参考数据,收集了33名专家和33名非专家检查人员的51,179份评估报告。
当将模型与人类专家进行比较时,使用F1分数作为主要,其他指标包括诊断的准确性、敏感性、特异性、诊断优势比等。比较结果显示, AI模型优于专家和非专家检查员 (P < 0.0001),这对于所有评估指标都是一致的。每个人类专家和AI模型之间的配对F1分数表明, AI 模型的F1分数高于所有66个检查人员。 这些模型对未见中心案例的F1得分为83.50%,优于专家(79.50%)和非专家检查人员(74.10%)。
图:AI模型、人工检查和分类策略的表现
图:人类专家和AI模型之间配对的F1分数。
AI模型和专家之间诊断错误率的差异与专家和非专家之间的差异相似。 假阴性率(FNR;敏感性)和假阳性率(FPR;特异性)分别比专家低14.14%(15.12%比17.60%)和26.74%(12.70%比17.33%)。 相比之下,专家和非专家的FNR和FPR的相对差异分别为17.32%(17.60%对21.29%)和23.74%(17.33%对22.73%)。
研究团队还直接比较了AI模型与专家和非专家检查人员的灵敏度和特异性。 AI模型具有更高的灵敏度(89.31%对82.40%),当特异性保持在专家水平恒定时(82.67%)。相对于专家,这相当于减少了39.27%的FNR。同时,AI模型的特异性也更高(88.83%比82.67%),当灵敏度设置在专家水平(82.40%)时,对应于FPR降低35.53%。 与非专家检查人员相比,这一差异更大,FNR和FPR降低了65.37%和58.38%。
为了评估AI模型对各种临床因素的稳健性,研究团队评估了它们在各个中心、超声系统、组织学诊断、检查员信心水平、患者年龄组和检查年限方面的表现,发现AI模型均表现出优越的性能,优于专家和非专家检查人员。为了利用特定组织学诊断中包含的更丰富的信息,研究团队训练AI模型来识别良性和恶性类别中的十种不同的组织学类别。使用10个组织学类别的训练显著提高了模型的性能(F1为83.50%对82.22%)。
图:AI模型对各种临床因素的稳健性
此外,校准曲线显示, AI模型预测的恶性肿瘤风险与实际观察到的恶性肿瘤比例之间具有良好的对应关系,表明预测校准良好。 这意味着该模型的可信度与其做出正确预测的可能性密切相关。当应用于未Cropping的图像时,AI模型性能仅略有下降,进一步验证了该模型定位和优先考虑临床相关特征的能力,增强了其可靠性和可解释性,表明其可以帮助诊断具有挑战性的病例。
AI驱动的诊断支持有可能缓解专家检查人员的短缺,并通过优化临床工作流程改善患者的治疗效果。研究团队建议将AI模型作为辅助集成到分诊程序中。AI模型和人类检查人员各自进行初步评估,然后在意见不一致的情况下由专家做出最终决定(图4b)。
该研究是第一个在多个国际外部中心系统探索和验证AI模型在超声图像中区分卵巢良性和恶性病变潜力的综合研究,并与人类检查人员进行了比较。该AI模型具有强大的泛化能力,其表现优于任何专家和非专家检查人员。该AI模型的表现有望帮助改善卵巢癌的诊断,将在解决全球超声专家短缺和发现早期卵巢癌的挑战方面发挥巨大作用。
据悉,该团队现在正在进行一项前瞻性临床研究,以评估这些工具在现实世界临床环境中的安全性和实用性。

论文原文:

Christiansen, F., Konuk, E., Ganeshan, A.R. et al. International multicenter validation of AI-driven ultrasound detection of ovarian cancer. Nat Med (2025). https://doi.org/10.1038/s41591-024-03329-4

·END·

THE END