人工智能在医学领域中应用丨通过质量保证、质量控制和验收测试来发挥AI优势降低风险

健康 2024-06-18 19:30 江苏

团队介绍：中山市循证感控团队

中山市循证感控团队来自伟大民主革命先驱孙中山先生的故乡，团队成员以推行循证感控、精准感控为己任，践行「感控为公，天下为公」宗旨，惟愿诸君将推行感控理念之责任，置之于自身之肩上。

检索、编译：章琳中山市中医院

审核：岑惠珊中山市人民医院

人工智能 (AI) 工具在医学领域有着巨大潜力，可以从诊断决策支持、工作流程管理、药物发现以及放射学中整个影像链的应用等方面彻底改变临床工作。尽管 AI 工具在医学领域前景广阔，但在临床环境中应用这些技术面临一些挑战，例如适用范围有限、现实场景中稳定性较差以及缺乏透明度等等。

美国物理学会医学分会（AAPM）第 273 号工作组报告，为临床部署前的 AI 工具测试和评估提供了框架。当前迫切挑战在于制定严格的质量保证程序，以最大限度地发挥 AI 工具的优势，降低其风险，并在临床环境中实施。

这一挑战催生了多学科 AAPM 工作组 TG416 的成立，该工作组名为「CAD-AI 工具在临床实践中的质量保证和用户培训最佳实践」。TG416 旨在为任何应用于医学领域中 AI 工具的实践提供最佳质量保证, 确保患者诊疗安全。本文是对 TG416 的介绍性论述。

AI 应用失败的例子

1、Epic 公司开发的基于人工智能的脓毒症治疗系统。经独立审计师报告指出，实际表现与其性能报告存在显著差距。

2、2017 年，阿根廷萨尔塔省采用了一项人工智能工具来识别青少年中存在高风险怀孕的个体。经独立审计人员发现，该工具夸大了预测准确性，因为它是在几乎完全相似且带有偏倚的数据集上进行训练和评估的。

3、已经获得临床应用监管许可的 AI 工具，在新的临床环境中使用时也可能出现性能不佳，这可能是由于泛化能力不足或超出说明书使用。

AI 应用失败例子的启示

这些案例凸显了医学领域中 AI 工具面临的挑战，因为开发者所用数据（即用于创建工具的训练、验证和测试集）的分布与外部测试集、之前未使用过的测试集或当地患者病例特征，可能存在偏倚。这需要开发人员在将 AI 工具纳入临床工作流程中时，需要透明地公开开发过程和质量保证程序。

而采用标准化的质量保证 (QA) 协议和质量控制 (QC) 程序有助于改进问题，包括：（1）在临床使用前进行验收测试（AT）；（2）持续进行质量控制（QC）监测；（3）提供充分的用户培训。

质量保证（QA）

质量保证（QA）由初始验收测试（AT）和定期 QC 程序组成（如图 1 所示），旨在在问题影响患者之前识别、隔离和解决所有问题。质量控制（QC）是质量保证（QA）的重要组成部分。

图 1 质量保证（QA）、验收测试（AT）和质量控制（QC）在医疗领域的人工智能工具相互关联的流程图。

采用标准化质量保证（QA）协议。以医学影像领域为例，其长期以来一直致力于质量和安全，并通过严格执行质量保证（QA）协议进行监管。如在美国，乳腺 X 线摄影受到《乳腺 X 线摄影质量标准法》（MQSA）的监管，该法律要求实施全面的质量保证（QA）计划，包括初始验收测试（AT）、对硬件和软件进行持续性质控测试（QC）、设备维护、初次和持续教育以及同行评审的医疗审核。MQSA 框架可以作为一个有价值的模型，用于为医疗 AI 工具制定质量保证指南，旨在确保性能稳定、用户培训标准、持续教育以及定期同行评审。

鉴于 AI 在医学影像领域中的不同应用，每个 AI 工具都需要自己特定的 QA 程序，一般来说 QA 程序包括四个步骤:（1）新安装工具的测试，这通常比正在进行的常规质量控制测试更严格。（2）确定基准性能。（3）持续监控工具，确保及早发现性能的任何变化。(4) 在对可能影响 AI 工具输出的工作流进行任何更改后，定期重新验证以验证性能。

验收测试（AT）

AI 工具被归类为医疗设备，容易受到微小或明显故障的影响，从而对患者诊疗产生负面影响并引发法律责任。例如，Voter 等人在一项商业可用的 AI 工具上发现其诊断准确性有所降低，在某些情况下错误原因尚不清楚。这些发现强调了在使用本地定制参考测试集时对 AI 工具进行特定环境评估的重要性。

有效的 AT 确保 AI 工具无缝融入当地工作流程，而不会干扰现有功能。此外，它还验证性能、指出局限性，并标记潜在偏倚。

AI 开发团队需要在初始购买或升级过程中，以及再次执行 QA 程序时披露的信息内容，应包括开发数据统计学特征（如性别、体质指数（BMI）、年龄、种族、设备类型和其他混杂因素）。这些信息对于确定该工具是否适用于当地特定患者人群是必要的。

质量控制（QC）

验收测试（AT）建立基准性能，持续的质量控制（QC）对随时间变化的性能监测非常重要。随着时间推移，患者人口统计学或临床工作流程可能会发生变化，从而改变当地人口特征（例如患者年龄、BMI、治疗疾病、成像设备或协议）。经过优化处理后的数据可能导致 AI 工具偏离其初始性能。

1、对硬件、软件或 AI 输入系统进行定期测试，每日、每月或半年一次。开发人员确定可能影响 AI 输出的本地工作流程要素并提供监控工具，指定初始安装和未来升级的限值，随着时间的推移自动跟踪特定的性能基准。监测、测试频率应与工具风险相匹配（即风险越高，需要更频繁审计），还要考虑法规和操作经验。

2、重视用户反馈。如为临床医务人员提供用户友好且高效的报告工具，以记录 AI 工具在日常使用中提供不合理建议的情况。披露有关开发数据的详细信息，包括演示图组成和预期用途，以便医务人员能够更好地了解该工具在当地人群中的潜在局限性。

3、高风险的 AI 工具，例如涉及分诊或医疗诊断的工具，需要严格的年度评估。评估应仔细检查工具的公平性、潜在偏差和错误率。在临床工作流程发生重大变化、技术更新或临床用户发现异常错误后，可能需要对高风险工具进行频繁测试。旨在患者安全和运营效率之间取得平衡。

此外，应核查临床医生与 AI 工具的交互，以识别自动化偏差等潜在问题。年度重新验证过程可能涉及使用开发人员提供的和本地整理的参考测试集重复验收测试（AT）程序，以识别与基线性能的任何偏差。如果临床工作流程、患者人口统计、成像设备或软件升级或其他可能影响 AI 工具的因素发生变化，则必须考虑重新验证。在这种情况下，更新编制反映变化情况的本地参考测试集也是明智之选。此外，建立同行评审机制以识别性能变化也是必不可少的。

用户培训

用户培训是成功将 AI 工具融入诊疗工作的关键要素。为了降低风险，终端用户必须了解工具的预期用途、功能、局限性和伦理影响。这种培训应既全面，又针对每个临床科室的独特要求和规程。

除了特定的说明外，培训模块还应包括正确使用 AI 工具的信息、底层假设、法律框架，以及成功和不成功应用的案例研究。这种多方面的方法有助于理解工具的优点和局限性。

最重要的是，在 AI 工具开始影响临床决策之前就开始进行用户培训，并在整个 AI 工具运营期间定期更新。持续教育应包括同行评审，并使临床医生能够有效地了解 AI 工具在患者诊疗中所扮演角色及其影响。

此外，需要额外针对特定学科进行培训，来设置基于 AI 输出指导决策，例如放射治疗计划中自动分割需要对剂量师、物理学家、医生和肿瘤学家等进行有效培训。全面培训可以使团队能够有效地核查治疗计划过程中产生的 AI 输出结果，识别偏差和局限性。

制定实用且可供非 AI 专家的医疗专业人员使用的指南。由于不同 AI 工具的具体程序有所不同，开发人员应提供有关系统设置、协议、参考数据集的预期性能指标，以及正在进行的质量控制测试的详细指南也必不可少。

AI 的有益和有效应用主要通过严格的质量保证协议、透明的开发团队的实践以及持续监测和调整来增强。

总结

总之，在医疗领域中，严格的质量保证协议、透明的开发团队的实践、持续监测和调整使 AI 应用得更符合伦理且高效。通过持续监测（QC）和严格测试（AT），质量保证（QA）确保医疗 AI 工具在不同患者人群和临床应用中始终可靠有效。严格的测试程序提高了这些工具在临床医生和患者中的可信度，并支持确保 AI 工具能够有效推广到不同环境。

整合健全的质量保证计划可以创建一个更有韧性的医疗系统，使其能够充分利用 AI 带来的好处同时将风险最小化。这些因素共同促进了将 AI 打造成为一种更可靠、安全、公平的医学工具，使得医务人员能够建立信任并防止伤害发生，同时适应不断变化着的 AI 领域。

文献来源：

[1] Mahmood U, Shukla-Dave A, Chan HP, et al. Artificial intelligence in medicine: mitigating risks and maximizing benefits via quality assurance, quality control, and acceptance testing. BJR Artif Intell. 2024 Mar 4;1(1):ubae003. doi: 10.1093/bjrai/ubae003. PMID: 38476957; PMCID: PMC10928809.

题图：https://www.cxoinsightme.com/wp-content/uploads/2020/07/AI_shutterstock_1722492775-scaled.jpg

http://mp.weixin.qq.com/s?__biz=MzU1NjY4MjQzOA==&mid=2247492319&idx=1&sn=5a3801f8bc5bc43d2c77d69325b59bcf

SIFIC感染循证资讯

SIFIC感染官微矩阵之一，发布感染相关国际指南，循证动态等。

最新文章

郑医感控前沿文献速递 74丨肠镜操作导致耐药菌暴发的关键环节是什么？

郑医感控前沿文献速递 73丨呼吸机 PEEP 调整方案与呼吸机相关事件有关

案例报道丨英国妇产医院PVL阳性MRSA感染疫情暴发与处置

WHO 最新指南丨血管内导管相关血流感染防控指南（PICC PIVC）

颌面筋膜间隙脓肿与颞下颌关节紊乱病傻傻分不清？

共用医疗设备：要花多少时间才能达到有效清洁

郑医感控前沿文献速递 71丨闭合切口负压治疗对手术切口感染有优势吗？

2024 ISID 医疗机构感染控制指南：VAP预防建议

神经系统疾病患者泛耐药鲍曼不动杆菌医院感染性发热及预后

郑医感控前沿文献速递 71丨游戏式培训能提高医院药房工作者的洗手依从性

2024 ISID 医疗机构感染控制指南：VAP预防建议

郑医感控前沿文献速递 70丨重复使用口罩不增加手术部位感染风险

耐药高毒力肺炎克雷伯菌全球形势：WHO 是这样说的

从文献计量学角度看全球耳念珠菌现状

郑医感控前沿文献速递 69丨VRE离我们还很远？

文献速递丨血培养应该通过留置导管抽取吗？

这例严重的产后脓毒症，病因你能想到吗 ?

一起可重复使用采血辅助器引发的医源性丙肝感染：来自香港某肝移植中心的调查

一例星座链球菌所致化脓性气胸合并桥本甲状腺炎患者的成功介入治疗

WHO更新了空气传播术语，飞沫传播不再使用了？

文献速递丨近期全球爆发的人感染甲型禽流感病毒病例

犬咬伤要打破伤风吗？

通过统计过程控制早期识别医疗机构相关 NTM 暴发

神经系统疾病患者泛耐药鲍曼不动杆菌医院感染的危险因素、结果和预测

文献速递丨利用基因组测序对产碳青霉烯酶肠杆菌进行主动监测在医院感染控制中的应用

金葡菌筛查和去定植能降低手术部位感染风险吗？

紧急公共卫生问题：耳念珠菌在欧洲的最新情况

文献速递丨中国手术部位感染发生率

侵袭性金黄色葡萄球菌的分子特征、抗生素敏感性和生物膜形成能力

成功控制新冠隔离病房 CRAB 暴发疫情的案例报道

文献速递丨戴手套前是否需要进行手卫生？

术后复发性脊柱结核合并HIV感染：一例罕见的复发和耐药病例

郑医感控前沿文献速递 68丨闭合切口负压治疗可减少开放结肠术后浅表手术部位感染

减少重症康复病房导尿管相关尿路感染

人工智能在医学领域中应用丨通过质量保证、质量控制和验收测试来发挥AI优势降低风险

耐多黏菌素肠杆菌感染患者的风险与结局如何？

紫外线消毒已经过时了吗？高质量证据下无接触强化终末消毒技术的抉择

医务人员感染猴痘是什么特征？

医务人员感染控制依从性不佳，是因为有这些负担！

SSI 屡禁不止，医院可能已经尽力了

文献速递丨ICU中多重耐药菌去定植策略

个性化家庭去定植方案预防社区相关MRSA皮肤软组织感染效果如何？

文献速递丨孕产妇百日咳疫苗接种、婴儿免疫接种和百日咳风险

全基因组测序探查内镜相关产NDM大肠埃希菌暴发

郑医感控前沿文献速递 67丨心脏植入式电子设备感染的经济负担

成人静脉注射的安全性和有效性研究：中长导管VS经外周置入中心静脉导管

中国儿童自行使用抗生素现状丨一项对父母的知信行调查

郑医感控前沿文献速递 65丨高水平消毒 vs 灭菌：使用后内镜的再处理

艰难梭菌感染监测定义的思考：一项单中心回顾性队列研究

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉