JAMA. 2023 Dec 19; 330 (23) : 2275-2284.
人工智能(AI)在诊断住院患者时可能支持临床医生,但AI模型中的系统性偏差可能会加剧临床医生诊断准确性的问题。 最近的监管指导要求AI模型应提供解释以减轻模型的错误,但这种策略的有效性尚未确定。
评估系统性偏差的AI对临床医生诊断准确性的影响。 确定基于图像的AI模型解释是否可以减轻模型错误。
随机临床案例调查研究,涉及美国13个州的住院医师、护理师和医师助理。 医师观看了9个临床案例(住院原因为急性呼吸衰竭),包括患者的症状、体格检查、实验室结果和胸部X射线。 医师被要求判断肺炎、心力衰竭或COPD作为每个患者急性呼吸衰竭的潜在原因的可能性。 为了建立基线诊断准确性,医师看了2个没有AI模型参与的案例。然后,医生被随机分配观看6个带有或不含AI模型解释的案例,其中3个案例包含标准模型的预测,另外3个案例包含系统性偏差模型的预测。 研究终点:医师在诊断肺炎、心力衰竭和COPD中的准确性。
参与者的中位年龄为34岁,其中241人(57.7%)为女性。 457名医师被随机分配并完成了至少1个案例,其中231人被随机分配到没有图像解释的AI模型预测组,226人被随机分配到有解释的AI模型预测组。 医师对于这3种疾病诊断的基线准确性为73.0%。 当医师观看没有解释的标准AI模型时,其准确性相对于基线提高了2.9个百分点。 当医师既观看AI模型预测又有解释时,其准确性相对于基线提高了4.4个百分点。 具有系统性偏差的AI模型预测使医师的准确性相对于基线下降了11.3个百分点。 提供带有偏差的AI模型预测和解释使医师的准确性相对于基线下降了9.1个百分点,与系统性偏差的AI模型相比,改善了2.3个百分点,但这个改善并没有达到显著水平(95% CI,-2.7 to 7.2)。
标准的AI模型可以提高临床医师的诊断准确性。 系统性偏差的AI模型会降低临床医师的诊断准确性。常用的基于图像的AI模型解释无法减轻这种有害效应。 从这篇文章可见,AI模型本身是否有系统性偏差是影响其作用的重要因素。那么,AI的“偏见”是如何形成的呢?其来源和训练数据集的质量密切相关,这在某些应用中已有实例(如在AI辅助判断犯罪倾向方面,人的偏见将会“培养”AI的相应偏见,再反哺人的判断和行为,进而导致偏见的放大甚至失去纠偏的机会)。如果训练数据集是一堆无法言说的混乱,那么能指望AI会学成啥样呢,又会发挥一个什么作用呢?