Nat Med | 人工智能新高度:AI用于痴呆病因的鉴别诊断
在人工智能越来越火热且普遍的今日,依靠大数据及机器学习的辅助诊断AI模型被不断的提出,但仍有各种各样的不足。
2024年7月4日Vijaya B Kolachalama团队发表在《Nature medicine》杂志上的一篇文章:AI-based differential diagnosis of dementia etiologies on multimodal data 中,研究者团队通过从多个数据集在中获得的多模态数据建立了一个人工智能模型,来进行痴呆的鉴别诊断,并且证明使用模型预测与神经科医生的评估相结合时,诊断准确率被大大提升。让我们一起来深入了解一下吧。
一、亮点
1.模型采用了一种基于变换器架构的多模态机器学习框架,将每种数据类型通过变换器进行综合分析,输出每种病因的概率,并捕捉数据中的复杂关系
2.该模型在面对不完整数据时仍有较高的预测稳定性
3.使用人工智能辅助神经科及放射科医生时,诊断评估的准确性得到较大的提高
二、背景介绍
每年有近1000万新痴呆症病例报告,这种综合征的特点是认知功能逐渐下降,严重到足以妨碍日常生活活动。2017年,世界卫生组织的全球行动计划强调,为应对全球日益增多的痴呆症病例,需要及时准确诊断痴呆症,这是一项关键的战略目标。痴呆的诊断及早期干预尤为关键,但由于症状重叠的病因,痴呆的鉴别诊断仍然是神经病学的一个挑战。
本文中研究者团队通过从多个数据集在中获得的多模态数据建立了一个人工智能模型,这个模型解决了区分各种痴呆病因的临床挑战。该模型的稳定性通过在一组不同的独立队列中进行训练和验证,并通过对可获得生物标志物和尸检数据的病例的验证得到了证实。并且证明了模型预测与神经科医生的评估相结合时,优于单独由神经科医生进行的评估。
三、主要结果
1.数据、模型架构和建模策略
利用从九个数据集在中获得的多模态数据(基本信息、神经系统测试及影像资料等)(图1),采用了一种基于变换器(Transformer)架构的多模态机器学习框架,将每种数据类型转换为固定长度的向量,然后通过变换器进行综合分析,输出每种病因的概率,并通过自注意力机制捕捉数据中的复杂关系。 研究者的模型将个体分配到通过神经学家团队的共识定义的13种诊断类别中的一种或多种。这种实用的分类是根据临床管理途径设计的,因此反映了现实世界的情况。该设计包括症状性中风、认知网络囊性梗死、广泛的白质高强度和/或执行功能障碍作为观察到的认知障碍的主要因素的病例。纳入标准为:这些患者通常会接受专门从事中风和血管疾病的临床医生的护理。
13种诊断如下
NC:认知正常
MCI:轻度认知障碍
DE:痴呆
AD:阿尔茨海默病
LBD:路易体痴呆,包括路易体痴呆和帕金森病痴呆
VD:血管性痴呆、血管性脑损伤和血管性痴呆,包括卒中
PRD:朊病毒病包括克雅氏病
FTD:额颞叶变性及其变体,包括原发性进行性失语、皮质基底变性和进行性核上性麻痹,伴或不伴肌萎缩侧索硬化
NPH:正常压力脑积水
SEF:系统和环境因素,包括传染病(包括艾滋病毒)、代谢、药物滥用/酒精、药物、系统疾病和谵妄
PSY:精神疾病包括精神分裂症、抑郁症、双相情感障碍、焦虑和创伤后应激障碍
TBI:中度/重度创伤性脑损伤、重复性脑损伤和慢性创伤性脑病
ODE:其他痴呆病症,包括肿瘤、唐氏综合征、多系统萎缩、亨廷顿氏病和癫痫发作
图1.模型所采用的数据集
2.在认知谱上对个体的表现进行建模
①.模型在NC、MCI和DE方面的表现
研究者首先试图评估该模型在由NC、MCI和DE的个体组成的测试用例上的性能。受试者工作特征曲线(receiver operating characteristic,ROC)和精确率-召回率曲线(precision-recall ,PR)反映了不同平均方法的较强模型性能(图2a,b)。在由训练中未使用的NACC数据、阿尔茨海默病神经成像计划(ADNI)和弗雷明汉心脏研究(FHS)数据组成的测试集中,研究者的模型显示出对NC、MCI和DE的稳健分类能力,实现了ROC曲线下的微平均面积( area under the ROC curve ,AUROC)为0.94,PR曲线下的微平均面积(area under the PR curve ,AUPR)为0.90。此外,宏观平均指标显示AUROC为0.93,AUPR为0.84。加权平均AUROC和AUPR值分别为0.94和0.87,进一步证明了模型的有效性。 此外,模型在不同年龄、性别和种族亚组中的表现对于NC、MCI和痴呆的预测是一致的。
②.不完整数据上的模型性能
在对临床数据分析的过程中,不完整数据往往是让人非常头疼的东西。为了评估模型对不完整数据的弹性,研究者人为地在NACC队列中引入了不同程度的数据缺失,并通过选择性地删除部分数据来模拟不同的约束,评估了对其预测性能的影响。即使面对缺失的特征,无论是核磁共振、统一帕金森病评定量表、老年抑郁量表(Geriatric Depression Scale,GDS)、神经精神量表问卷、功能活动问卷( Functional Activities Questionnaire,FAQ) NP测试或其他参数,研究者的模型始终产生可靠的分数(图2c)。 这不仅强调了它的预测稳定性,而且还加强了它在各种临床场景中的潜在适用性。
③.模型可以诊断出前驱AD
研究者试图通过比较患有和不患有AD的MCI病例之间AD的预测概率(P(AD))来评估研究者的模型区分MCI个体的能力,(该能力基于能否判断AD是否是其认知障碍的病因因素)。为了进行比较,研究者还根据AD在认知障碍中的作用评估了该模型区分痴呆症个体的能力。尽管研究者的模型主要用于识别AD痴呆阶段,而不是其前驱阶段,但与其他原因引起的MCI病例相比,它始终认为与AD相关的MCI病例P(AD)较高,在DE病例中,该模型通常将较高的P(AD)分配给AD为主要病因的患者(图2d)。 这种模式加强了该模型在早期疾病检测和支持方面的效用临床医生应根据认知障碍的具体病因作出明智的决定,强调了该模型的临床意义。
④.模型与CDR分数的一致性
研究者对NACC测试和ADNI队列中所有参与者的模型预测DE概率评分P(DE)和临床痴呆评分( Clinical Dementia Ratings ,CDR)评分进行了比较。 尽管在模型训练期间没有将CDR作为输入,但模型预测显示与CDR分数有很强的相关性。在研究者对NACC数据集的分析中,研究者观察到P(DE)随着CDR评分的提高而逐渐增加,在认知障碍谱系中表现出统计学上的显著差异(图2e,f)。在FHS数据集(图2g)中,用共识小组的诊断分类(正常、受损和痴呆)代替CDR评分,除了正常与受损的P(DE)外,这些诊断层的P(DE)明显具有显著的统计学意义。这一发现表明,当依赖于一组有限的特征时,该模型在区分认知衰退的早期阶段时仍有不足。
总的来说,这些发现阐明了该模型描述不同认知状态的强大能力,展示了其作为识别跨数据集认知障碍水平的工具的潜力。
图2: 对模型能力的综合评估
3.单一和并发痴呆的模型评估
研究者评估了模型在十种不同痴呆病因上的诊断能力。中的ROC和PR曲线反映了模型在不同平均方法中对识别痴呆病因的总体评估方面的强大模型性能,微平均AUROC和AUPR值分别为0.96和0.70。宏观平均来看,AUROC和AUPR分别为0.91和0.36。AUROC和AUPR的加权平均值分别为0.94和0.73(图3a,b)。 该模型的表现以较高的微平均和加权平均AUROC和AUPR得分为特征,强调了其在广泛的痴呆症病因诊断中的准确性。
为了进一步评估模型对并发痴呆的性能,研究者采用0.01为最大方差阈值进行AUROC计算。这种选择旨在平衡模型的敏感性和特异性,使其能够辨别细微的诊断差异。在两种痴呆症同时发生的情况下,该模型的AUROC评分从0.63到0.97不等,反映了诊断准确性的谱,其中LBD和PSY的组合达到了最高的AUROC。AUPR评分范围为0.08 ~ 0.60,再次以LBD和PSY的结合记录最高的AUPR值。在AD合并其他两种病因(VD和PSY)的情况下,AUROC评分为0.73,AUPR为0.48(图3c)。虽然高AUROC值证明研究者的模型显示出强大的诊断辨别能力,但AUPR评分的可变性可能反映了在数据集中识别不太普遍或更复杂的痴呆病因中存在一些不足。
图3.模型对单一和并发痴呆的评估
4.用生物标记物验证模型
研究者测试了AD、FTD和LBD的模型预测概率与数据集中各自的生物标志物进行对比。对于AD,在NACC和ADNI队列中,P(AD)与Aβ、tau和FDG PET生物标志物相关,表明生物标志物阴性组和阳性组之间存在统计学差异。在NACC队列中,FTD概率P(FTD)与MRI和FDG PET生物标志物显著相关,生物标志物阳性组的P(FTD)更高。这一结果证实了研究者的模型检测FTD与观察到的额颞叶代谢低下和萎缩模式一致的能力。最后,LBD概率P(LBD)在分析LBD55的多巴胺转运体扫描( dopamine transporter scan,DaTscan)证据时也显示出明显的差异,DaTscan阳性组显示出更高的LBD概率(图4)。
综上所述, 这些发现验证了该模型在捕获流行痴呆类型的病理生理基础以及临床综合征方面的有效性,提供了与各自生物标志物图谱密切匹配的病因特异性概率评分。这种一致性不仅证实了模型的预测有效性,而且还强调了其与当代临床实践的相关性。
图4.各种生物标志物用于验证模型准确性
5.人工智能增强了临床医生评估
为了确定研究者的模型是否可以增强神经科医生提供的评估诊断,研究者计算了人工智能辅助神经科医生的置信度得分,然后,研究者将单个神经科医生评估的诊断性能与人工智能增强的神经科医生评估的诊断性能进行比较。研究者一致发现, 所有病因的AUROC和AUPR均显著升高。在所有类别中, AUROC平均增加26.25%,AUPR平均增加73.23%。诊断性能的最大改善是PRD和TBI,其中平均AUROC分别增加了73%和72%,平均AUPR分别增加了242%和257%(图5a,b)。研究者还评估了放射科医生和人工智能增强放射科医生的诊断表现,在各种痴呆病因中,研究者观察到AUROC平均增加16.19%,AUPR平均增加41.79%。除TBI和ODE外,所有病因的AUROC均有显著提高, PRD的AUROC平均改善最高,为69%。所有病因的AUPR也有所改善,在PRD中最明显,其平均AUPR激增了200%。(图5c,d)
图5.人工智能增强临床医生评估的效率
四、讨论
研究者团队通过从多个数据集在中获得的多模态数据建立了一个人工智能模型,用于解决区分各种痴呆病因的临床挑战。基于变换器(Transformer)架构的多模态机器学习框架以及通过随机特征屏蔽对不完整数据集的熟练处理,使得模型可以计算出表明轻度认知损伤或痴呆的概率得分。这一职能促进了早期医疗干预和关于专家转诊的更明智的决定,为指导临床决策提供了清晰的框架。总的来说,该模型通过处理混合性痴呆的检测,代表了该领域的关键一步,从而为提高临床实践中的诊断准确性提供了一个有价值的工具。
参考文献
Xue C, Kowshik SS, Lteif D, et al. AI-based differential diagnosis of dementia etiologies on multimodal data. Nat Med. Published online July 4, 2024. doi:10.1038/s41591-024-03118-z
链接:http://www.lewenyixue.com/2024/11/18/Nat%20Med%20%7C%20%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E6%96%B0%E9%AB%98%E5%BA%A6%EF%BC%9AAI/