一区解读-电子健康数据模型的偏见检测和缓解策略

文摘   2024-11-05 18:05   重庆  

揭示人工智能中的偏见:基于电子健康记录模型的偏见检测和缓解策略的系统回顾


摘要/
Abstract

目的

将人工智能(AI)与电子健康记录(EHR)相结合具有改善医疗健康的巨大潜力。然而,必须重视AI中的偏见问题,因为这可能会加剧医疗不平等。本研究旨在回顾利用EHR数据开发的AI模型中处理各种偏见的方法。

材料与方法

我们遵循系统评价和荟萃分析优先报告项目(PRISMA)指南,对2010年1月1日至2023年12月17日期间在PubMed、Web of Science和IEEE上发表的文章进行了系统回顾。本回顾确定了关键偏见类型,概述了AI模型开发全过程中的偏见检测和缓解策略,并分析了偏见评估指标。

结果

在检索到的450篇文章中,有20篇符合我们的标准,揭示了六种主要偏见类型:算法偏见、混杂偏见、隐性偏见、测量偏见、选择偏见和时间偏见。这些AI模型主要用于预测任务,但尚未在真实医疗环境中部署。五项研究专注于隐性偏见和算法偏见的检测,采用统计均等性、机会均等性和预测均等性等公平性指标。十五项研究提出了缓解偏见的策略,特别是针对隐性偏见和选择偏见的策略。这些策略通过性能和公平性指标进行评估,主要涉及数据收集和预处理技术,如重采样和重加权。

讨论

本回顾强调了缓解基于EHR的AI模型中偏见的策略的最新进展,并强调了对方法论的标准化和详细报告以及系统性真实世界测试和评估的迫切需求。这些措施对于评估模型的实际影响以及促进确保医疗公平和公正的伦理AI至关重要。

方法

Method

01
数据源和搜素

如图1所示,该回顾遵循了2021年PRISMA(系统评价和荟萃分析优先报告项目)指南。在三个相关出版数据库(PubMed/MEDLINE、Web of Science和电气和电子工程师协会)上进行了系统搜索,以检索2010年1月1日至2023年12月17日之间发表的文章。



02
纳入和排除标准

纳入的文章需满足以下条件:(1)用英语撰写;(2)包含元数据(作者、标题、出版年份)和全文;(3)发表于2010年1月1日至2023年12月17日之间;(4)以基于电子健康记录(EHR)的人工智能模型为研究对象(即,使用EHR数据进行模型训练、测试和验证);(5)评估了偏倚,并明确描述了其对医疗差距的影响,同时详细说明了偏倚处理方法。由于电子健康记录与医学影像/设备在数据格式、收集、利用和解释方面存在显著差异,可能导致潜在的偏倚特性不同,因此排除了以影像和设备相关数据为中心的研究。



03
文章筛选流程

从 3 个数据库中检索了标题和摘要并删除了重复项。然后,其余的标题和摘要由至少 2 名审稿人筛选。全文筛选由 Feng Chen、Liqin Wang 和 Julie Hong 进行,每篇文章至少由 2 名审稿人独立审阅。审稿人之间的任何不一致都通过团队会议达成共识来解决。


04
数据提取

数据最初由 Feng Chen 和 Jiaqi 江提取,并由 Liqin Wang 和 Li 周 审查。彻底检查了其余文章的全文,以提取相关组成部分以供分析。数据提取过程涵盖 3 个关键类别:书目数据、与 AI 模型相关的信息以及偏见和公平性的细节。书目数据包括研究的标题、作者和出版年份。与 AI 模型相关的信息包括 EHR 数据的来源、样本量以及 AI 模型的主要目标和任务。最后,偏倚/公平性特定信息包括每项研究中报告的偏倚类型、用于检测或减轻偏倚的策略、用于衡量偏倚的评估指标。


05
偏倚类型的分类

基于 EHR 的 AI 模型中的偏差类型分类涉及结构化的 2 步过程。首先,检查了所选研究中报告的偏差,以反映当前对 AI 研究中偏差的理解。该初步分析提供了对该领域内普遍存在的问题的直接见解。其次,通过整合来自医疗保健 AI 的更广泛文献的见解来扩大我们的范围,包括系统评价之外的工作。通过整合已建立的偏倚风险评估工具,例如 ROBINS-I罗宾斯-E,和 PROBAST,以及相关的评论文章,例如 Mehrabi 等人对 AI 应用程序中的潜在偏见进行了分类。通过结合这些方法,我们对基于 EHR 的 AI 模型中存在的主要偏见类型进行了定义和分类,从而确保对该领域的偏见情况有透彻的了解。


06
偏差分析工作流程构建

创建了一个框架,如图 2 所示,用于对解决 AI 模型开发中偏差的方法进行分类和检查。该框架确定了在 3 个关键阶段可能出现的主要潜在偏差(从上述步骤中检查):数据收集和准备、模型训练和测试以及模型部署。对于每个阶段,确定了特定类型的偏倚并综述了有针对性的缓解策略。这些策略分为预处理、处理中和后处理方法,对应于 AI 模型开发的各个阶段,确保在 AI 模型的整个生命周期中采用结构化的偏差管理方法。


结果

Results


01 偏倚类型


确定了基于 EHR 的 AI 模型开发中可能存在的 6 种主要偏倚类型:

隐性偏差:隐性偏见也称为偏见偏见,是自动和无意发生的。它通常源于数据收集和数据预处理步骤中可能出现的数据中预先存在的偏见(例如刻板印象和有缺陷的情况假设)。使用有偏见的数据不可避免地会导致有偏见的结果。种族偏见、性别偏见和年龄偏见属于隐性偏见。

选择偏倚:这种类型的偏倚,也称为抽样偏倚或总体偏倚,当分析中使用的个人、群体或数据在数据准备过程中没有正确随机化时,就会发生。23,24例如,如果 AI 模型用于预测美国脓毒症患者的死亡率,但仅由来自特定地理区域内一家医院的数据进行训练,则它可能无法很好地推广到更广泛的人群,从而导致预测偏差和不准确。

测量偏倚:这种偏倚通常出现在研究的数据收集阶段,通常是由于临床医生或临床设备的数据输入不准确或不完整。25由于编码错误或注释者的主观解释而导致的标签不正确或有偏见也会影响机器学习模型的性能和有效性。

混杂偏倚:混杂偏倚也称为关联偏倚,是外来因素在暴露和健康结果之间发生的系统性扭曲。24在收集数据和训练模型时,可能会引入混杂偏差。例如,在一项预测患者再入院的研究中,与社会经济地位相关的数据可能存在混杂偏倚,因为社会经济地位较低的人获得医疗保健资源的机会可能有限,使他们更有可能患上更糟糕的疾病。在这种情况下,社会经济地位与输入的医疗条件和模型预测都相关。

算法偏差:当模型和/或其训练算法的内在属性在训练数据中创建或放大偏差时,就会出现这种形式的偏差。算法偏差可能会因各种因素而产生或放大偏差,包括训练数据不平衡或歪曲、模型做出的假设不当、模型处理中缺乏监管等。7例如,对具有复杂特征的临床数据执行预测的线性回归模型无法满足高斯分布假设可能会导致偏差。

时间偏见:当社会文化偏见和信仰被系统地反映出来时,就会出现这种偏见。26尤其是在使用历史或纵向数据训练模型时。19此类数据可能包含不同的医疗保健实践模式、过时的治疗和测试记录、不同的疾病进展阶段以及过时的数据记录过程,这些过程可能会对当前数据的性能产生负面影响。时间偏差可以在 AI 应用程序开发的任何阶段引入。

02 文章选择和筛选结果


图 1 概述了文章选择和筛选过程。最初确定了 450 篇文章,其中 92 篇是重复的,剩下 358 篇文章。在摘要筛选中,232 篇论文因不符合我们的综述标准而被排除,包括:综述论文 (n = 42)、观点文章 (n = 36)、离题文章 (n = 108)、定性研究 (n = 35)、仅摘要 (n = 9) 和预印本文章 (n = 3)。此外,由于无法获得全文,8 篇文章被排除在外。117 项研究接受了全文审查,97 项研究被进一步排除,原因是使用非 EHR 数据 (n = 16),缺乏明确的方法来检测或减轻 AI 模型中的偏倚 (n = 66),以及未能直接评估偏倚影响 (n = 14)。在完成这篇综述之前,一篇论文被撤回了。最终,20 篇文章被纳入最终分析。

03 研究任务

为了了解偏见如何影响 AI 应用,在每项研究中对 AI 模型的主要任务进行了分类,如表 1 所示。这些基于 EHR 的 AI 预测任务包括疾病诊断或风险预测、27–31治疗效果或疾病进展预测,4,32-35 死亡率或生存预测,5,36-39 药物或测试使用预测,疾病风险关联预测,40,41健康状况分类,42和 EHR 缺失插补。43,44


04 偏差评估指标


本综述中包括的研究采用了多种指标来评估偏见,如表2和表3所述,表4中描述了这些指标的定义。其中,八项研究(占40%)仅应用了性能指标,如灵敏度、特异性、准确性和受试者工作特征曲线下面积(AUROC)、均方误差(MSE)。其余12项研究(占60%)则采用了公平性指标,并且所有这些研究都集中在群体公平性上,该公平性测试不同受保护群体成员之间某种形式的统计均等性(例如,正面结果或错误之间的均等性)。基于群体的公平性指标分类20有三个标准:独立性、分离性和充分性。在采用公平性指标的研究中,有3项研究采用了基于平等的指标来衡量模型对群体信息的独立性,该指标直接观察不同群体间预测值的独立性。9项研究利用基于混淆矩阵的指标来衡量分离性,即预测值和群体在真实值条件下的独立性。1项研究使用基于校准的指标来衡量充分性,即在给定预测值条件下,真实值和群体的独立性。2项研究使用基于分数的指标直接比较预测值。


05 偏差检测和缓解方法


在本综述分析的20项研究中,有11项(55%)涉及隐性偏见,6项(30%)涉及选择偏见,6项(30%)涉及算法偏见,1项涉及混杂偏见,1项涉及测量偏见,以及1项涉及时间偏见。其中,有6项研究(30%)涉及两种类型的偏见2,其余研究则专注于单一类型的偏见。

在分析的20项研究中,有5项(25%)仅通过引入定量测量来识别和解释偏见的来源,从而检测人工智能模型中的偏见,如表2所示。其余15项(75%)则致力于减轻偏见。在这些缓解方法中,有12项(80%)报告了在减轻偏见后性能有所提高。相比之下,有2项研究(13.3%)观察到在减轻偏见后性能基本保持不变,而1项研究(6.7%)发现性能会根据所使用的评估指标而有所变化。偏见处理方法和缓解结果总结在表3中。

图2展示了基于电子健康记录的人工智能应用开发阶段、每个阶段的潜在偏见以及相应的偏见缓解方法。将包含的文章与每个阶段对齐时,表3中详细描述了每项研究的方法。其中,有11项研究(73.3%)偏见缓解方法属于预处理步骤,采用的方法包括重采样、重新加权、转换、重新标记和盲化。有3项研究(20%)开发了包括迁移学习和重新加权在内的处理中方法。只有1项研究(6.7%)应用了后处理偏见缓解方法,通过转换来识别模型应用中的偏见。





END




 扫码关注我们


文字 | 王倩倩

排版 | 王倩倩

                                           审核 | 小   猪




小猪的科研生活
分享日常科研生活和统计以及机器学习知识
 最新文章