今天为大家介绍的是来自Su-In Lee团队的一篇论文。大多数赋能医疗人工智能的机器学习模型的推理结果都难以解释。在这里,作者报道了一种结合医学专家见解和高度表达性的可解释人工智能形式的模型审计通用框架。
近年来,医疗人工智能(AI)分类器得到了迅速发展,但目前科学界和医疗界对哪些因素影响AI输出以及这些因素是否会在AI应用于实践中时导致失败和对患者造成伤害了解甚少。这些高风险分类器的推理过程——即那些依赖于神经网络和其他复杂的“机器学习”技术,这些技术能够在大型数据集中自动学习统计模式——对相关者来说都是不透明的,包括患者、医疗提供者、监管者乃至这些AI系统的开发者。原则上,深入理解这些AI分类器的推理过程有助于我们预测和防止AI失败,有助于改进AI模型,并通过贡献社区对AI推理过程或其底层训练数据的了解,提供科学价值。然而,我们缺乏对基于机器学习的医学图像分类器推理过程的彻底医学可解释描述。以前的科研努力极其有限地窥视了医疗AI的推理过程,通常通过技术来“检查”模型是否在正确的位置查看,而这些以及更具表现力的技术通常因缺乏原则性和医学知识而受到限制,无法彻底理解。实际上,尽管解释性AI(XAI)工具技术上取得了发展,但XAI工具输出与对AI分类器的实用理解之间的差距,特别是对于图像分析和其他“表示学习”AI系统,仍然很大,以至于应用XAI的努力常常忽视了AI分类器逻辑中的严重缺陷,例如对虚假的“捷径”特征的强烈依赖。
在探索医学图像AI的推理过程中,皮肤病学AI分类器作为一个特别有影响力的用例,有几个原因:众多学术论文报告了高性能;首批几家公司已经获得了欧洲经济区在患者身上部署他们的AI分类器的欧洲合格认证(CE)批准;多个开发商正在努力获得美国食品和药物管理局的批准。直接针对消费者的皮肤病学AI分类器可能因为缺乏医疗提供者的参与、对肤色的偏见潜力以及其他敏感属性,以及用户获取图像的异质性(由于照明条件、图像获取设备和数字处理程序的变化而产生,这些都未标准化)而带来特殊风险。同时,事实上用于分析图像模型的标准XAI方式——显著性图,它强调图像中最影响模型预测的区域——似乎不适合理解皮肤病学AI分类器,这些分类器可能最好以皮肤病学概念(如“多种颜色的色素”或“非典型色素网络”)来解释。即使是单一预测的解释也同时需要高水平的技术AI知识和皮肤病学专业知识,这阻碍了对AI分类器行为的全面理解。
在这项工作中,作者仔细审查了许多备受关注的皮肤病学AI模型,以获得医学图像AI推理过程的医学可解释图片。在这个过程中,作者展示了工作流程,它将XAI与人类领域专业知识相结合(图1a)。作者展示了解决XAI在成像领域的几个严重实际问题的解决方案,包括(1)以医学有意义的术语概念化AI行为,(2)解决采样挑战以形成稳健的结论,以及(3)从对个别预测的解释扩展到对AI分类器推理过程的全球理解。在较高层次上,作者的工作流程涉及基于生成式AI的反事实图像合成,这绕过了医学图像分析中事实上标准的XAI模式(显著性图)的限制。在这里,作者将反事实定义为回答“哪些现实的改变会引发AI做出不同预测?”的图像。作者限制改变程度使得图片看起来很真实,以便医学专家可以解释反事实图像之间的差异。工作流程涉及通过皮肤病学专家对成千上万这样的反事实图像进行分析,以用人类能理解的医学术语描述AI分类器。在整个过程中通过检查大量图像、考虑多个数据集并通过随机分析独立地从两位皮肤科医生那里征求见解,强调严谨性,以减少采样和偏差问题。
作者最终选择了五个AI分类器进行审计(图1b)。这些分类器横跨学术和商业分类器,并包括已经分发给消费者使用的分类器。这五个分类器包括:(1)DeepDerm;(2)ModelDerm;(3和4)Scanoma和Smart Skin Cancer Detection(SSCD);以及(5)一个“竞赛风格”的分类器,旨在模仿2020年医学成像信息学会和国际皮肤成像协作组织(SIIM-ISIC)黑色素瘤分类Kaggle挑战赛胜出模型的关键设计决策。由于这些不同的AI分类器是基于高度多样化的训练数据训练的,作者假设它们可能展现出一系列内部推理过程,例如,侧重于不同的皮肤病学特征或虚假信号。训练数据包括皮肤镜图像和临床图像。皮肤镜和临床图像展示了AI系统可能学习的潜在信号的独特配置。除了训练数据差异引入的变异性外,模型之间还可能由于它们不同的架构、预处理方案、集成和其他计算差异而产生额外的变异。
皮肤病学AI分类器在黑色素瘤检测性能上的差异窗体顶端
窗体底端
作为理解皮肤病学AI分类器的第一步,作者评估了每个分类器在区分黑色素瘤和类似黑色素瘤之间的表现(图1c)。虽然大多数AI分类器在大多数数据集中至少有限度地成功检测到了黑色素瘤,但表现变化很大且通常较低。所有分类器都未能在多样化皮肤病学图像(DDI)数据集中达到满意的表现,这是三个数据集中唯一一个已知不与任何AI分类器的训练数据重叠的数据集。这种表现差距可能来自于DDI包括的多样化皮肤色调和罕见疾病,但也可能源于其他分布外特征。尽管未在临床图像上训练,SIIM-ISIC——它利用集成技术与更现代的神经网络架构——在临床图像上的表现超过了所有其他模型。总体而言,该评估提供了一个基本检查,鉴于大多数至少在一定程度上泛化到外部数据集,这些皮肤病学AI分类器可能部分依赖于医学相关属性。此外评估表明,这五个皮肤病学AI分类器在其内部推理过程中可能存在差异,因为在三个数据集中表现在AI分类器之间并不一致。这项回顾性分析的发现激发了通过XAI进行进一步分析的动机。
通过反事实图像解释AI决策
为了理解AI分类器的推理过程,作者通过一个XAI工具检查了每个AI分类器:生成反事实图像。反事实图像通过改变参考图像的属性来生成一个会引发AI分类器给出不同预测的相似图像,从而揭示了AI分类器决策的基础。例如,考虑一个AI分类器预测一个病变是恶性的,而一个被AI分类器预测为良性的反事实图像的不同之处在于它具有较轻、更均匀的色素沉着和背景皮肤上较少的棕色斑点;只要我们确保反事实中的所有差异都推动AI分类器的预测朝着期望的方向(更良性)就可以推断出分类器使用病变的较深色素沉着和背景皮肤上的棕色斑点作为其推理过程的一部分(图2a)。为此,作者改进并应用了先前开发的一种生成反事实图像的技术,即通过渐进式变化来解释模型。在皮肤病学AI分类器的背景下,这项技术使从参考图像生成“良性”和“恶性”反事实图像成为可能(图2a)。作者训练了一个生成式AI模型与一个AI分类器,使得生成模型学会如何改变图像以改变AI分类器的预测,该生成模型创建相似且看起来真实但与参考图像不同以引发AI分类器期望预测的反事实图像。
虽然检查反事实图像数据对儿能提供一些关于AI分类器推理过程的信息,为了获得对AI分类器更完整、更严谨的理解,并使不同分类器之间能够进行直接比较,作者以随机化和盲审的方式系统地审查了数千个反事实图像(图2b)。首先通过预筛选反事实图像开始分析,以确保只检查高质量的反事实图像,并促进AI分类器之间的比较。接着排除了未能产生AI分类器所需输出的反事实图像或包含视觉人工痕迹的反事实图像(这是由皮肤科医生判断的)。然后两位皮肤科医生独立标注了每对反事实图像,这些图像经过随机化和盲审处理以减少偏见。为了了解皮肤科医生对反事实图像的总体印象是否与每个AI分类器关于哪张图像看起来更多或更少地表现为恶性相符,首先询问:“哪张图像最有可能代表黑色素瘤?”并要求皮肤科医生记录“良性”和“恶性”反事实图像之间不同的单个图像属性,这样就可以了解每个AI分类器使用哪些属性以及如何使用它们。作者汇总了皮肤科医生对数千个反事实图像的见解,以确定每个皮肤病学AI分类器的推理过程。作者的分析揭示了AI分类器关注的医学相关属性和假定的虚假属性,以及它们如何解释这些属性显示出相当大的异质性(图2c)。
反事实分析强调了病变的色素沉着作为决定所有检查的皮肤病学AI分类器预测的关键属性,无论是皮肤镜还是临床图像。在所有情况下,“较深的色素沉着”在频率上超过了所有其他属性,皮肤科医生在大多数反事实对中都注意到了这一变化。与皮肤科医生对更深色素沉着病变的解释一致,皮肤病学AI分类器通常将病变的较深色素沉着与黑色素瘤的增加可能性联系在一起;唯一的例外是在皮肤镜图像上评估的ModelDerm。一部分皮肤病学AI分类器(DeepDerm、Scanoma和SSCD)的皮肤镜反事实图像还显示了非典型色素网络,这些在更“恶性”的图像中出现,与皮肤科医生在分析黑色素细胞病变时使用此属性一致。反事实分析表明,皮肤病学AI分类器还依赖于病变的多种其他属性,许多属性在分析黑色素细胞病变时也被皮肤科医生考虑。在皮肤镜和临床图像中,来自所有AI分类器的反事实图像改变了病变中的颜色数量,通常将更多的颜色数量与恶性预测联系在一起。一些AI分类器,尤其是SIIM-ISIC,还诱导出带有蓝色/白色面纱的反事实图像,这之前被报告为黑色素瘤的特定发现。可能影响AI分类器决策的病变其他属性包括皮肤镜图像中无结构区域或退行的存在,以及临床图像中不均匀的色素沉着或红斑。除了红斑,根据AI分类器的不同,这些属性通常与恶性反事实图像相关联,但这些属性的频率在分类器之间有很大的差异。
对每个AI分类器属性的分析揭示了仅由部分AI分类器的反事实图像强调的额外病变属性。在皮肤镜图像中,这些属性包括斑块性(DeepDerm和SSCD)、草莓图案(ModelDerm)、白色斑点(SSCD)、毛囊或毛孔的突出(SSCD)、白色条纹(SIIM-ISIC)和鳞屑(SIIM-ISIC)。在临床图像中,这些属性包括侵蚀或溃疡(DeepDerm和Scanoma)、结节状或丘疹状外观(ModelDerm)、不均匀边缘(ModelDerm)以及病变的光泽(SIIM-ISIC)。反事实图像表明,背景皮肤的属性也影响皮肤病学AI分类器;而且,与病变的属性相比,背景的属性通常在分类器之间引发更多样的反应:多个分类器的反事实图像显示背景皮肤上的棕色斑点,这些斑点根据分类器的不同,与恶性或良性预测相关。在皮肤镜图像中,头发通常与良性反事实图像相关,但在临床图像中也可与恶性反事实图像相关。背景皮肤的网状结构与Scanoma和ModelDerm的良性反事实图像相关,但很少被其他分类器的反事实图像强调。背景皮肤的红斑或毛细血管扩张在反事实分析结果中也十分突出,这些属性的影响在AI分类器之间以及在一个AI分类器内部根据图像是临床的还是皮肤镜的而变化。最后,反事实图像强调背景皮肤的“粉色度”影响AI分类器的决策,特别是在皮肤镜图像中。与红斑不同,这个属性通常在图像中均匀出现(图2d)。与其他背景皮肤属性类似,照明或色彩平衡的变化可能会根据分类器的不同,将AI分类器推向更良性或更恶性的预测。
版权声明:本文为“乐问号”作者或机构在乐问医学上传并发布,仅代表该作者或机构观点,不代表乐问医学的观点或立场,不能作为个体诊疗依据,如有不适,请结合自身情况寻求医生的针对性治疗。
链接:http://www.lewenyixue.com/2024/04/19/nat-biomed-eng-%e4%b8%a8%e5%88%a9%e7%94%a8%e7%94%9f%e6%88%90%e5%bc%8f%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e5%92%8c%e5%8c%bb%e7%94%9f%e7%9a%84%e4%b8%93%e4%b8%9a%e7%9f%a5%e8%af%86%e5%ae%a1%e8%ae%a1/