欢迎关注类器官前言(沿)进展,第一时间了解类器官领域(生物学、人工智能、材料学、仿生学)的新进展
本文由谷歌健康,英国伦敦的科研人员10月22日在线发表于Nature Medicine 杂志。原文请点击文章最后的阅读原文。
大型语言模型 (LLM) 的出现得益于人工智能 (AI) 的突破,多个行业迅速采用了生成式 AI 功能。在医疗保健领域,人们对生成式 AI 支持各种工作流程的潜力抱有极大热情,随着性能的提高,这些系统的成本正在迅速下降 。与狭义的任务特定 AI 系统相比,生成式 AI 具有广泛的潜在适用性。它的行为似乎可以近似复杂的推理,并且可以生成与人类编写的内容几乎无法区分的内容 。
然而,由于患者护理的风险很高、医疗决策的复杂性以及可能造成重大意外伤害,医疗保健需要采取谨慎的态度。考虑到健康的细微差别,确保 AI 生成输出的安全性、有效性和合乎道德的使用至关重要,在广泛实施之前进行严格评估是降低风险的重要方法。
生成式人工智能虽然早期前景令人振奋,但如果不引入安全层,则可能会带来额外的风险和危害。通常更容易列举任务特定型人工智能系统的预期用途、输出以及风险状况。相比之下,生成式人工智能系统的灵活性使得预测和减轻所有可能的风险变得困难。在这里,我们以医学摘要为例,说明如何在医疗保健环境中应对生成式人工智能的独特安全挑战。
使用 MedLM 进行医学指导
LLM在健康领域最有前途的许多用例都基于它们能够将非结构化临床数据总结成以易于理解和信息丰富的方式向临床医生和患者提供有用见解的内容。这种医学摘要是前几代自然语言处理 (NLP) 方法实现的技术飞跃。
这样做的价值显而易见——医疗保健工作者的许多任务包括总结复杂临床数据中的各种见解。例如,将住院细节总结为出院总结,或将门诊预约记录总结为笔记。支持或自动化这些任务可能会提高准确性、效率和员工满意度。然而,如果不负责任地实施,并且没有适当的风险缓解措施,这些用例仍可能给患者带来巨大的临床风险。
2023 年 12 月,谷歌推出了 MedLM,这是专为医疗保健用途构建的文本到文本 LLM 系列。MedLM 包括一系列通过微调谷歌的 LLM 开发的模型,最初基于 MedPaLM 系统。在发布时,MedLM 可以支持从现有文本数据创建草稿摘要——在使用前由医疗保健专业人员审查、编辑和批准。就诊后总结就是从患者就诊记录中进行此类总结的一个例子。
我们的工作以谷歌的 AI 原则为指导,该原则支持优先考虑安全和公平性,并为风险评估和缓解提供了一个高级框架。此外,我们采取了系统性方法来评估安全性,在提供这些模型的过程中积极识别潜在危害并降低风险。为了限制在现实环境中使用这些模型时可能产生的有害变化,它们的使用仅限于非临床用途,例如后勤、行政和研究任务;MedLM 的输出不用于任何直接的诊断或治疗目的。模型输出不被视为最终版本,仅用于提供由医疗保健提供者审查的草案。这些模型的可用性是分阶段进行的,并严格遵循医疗保健和生命科学领域早期采用者的评估反馈。
风险管理系统
针对医疗保健用例进行微调的 LLM(例如 MedLM)通常会集成到特定的医疗保健组织用例中。特定的医疗保健环境、工作流程、文档样式和患者群体可能会有很大差异。因此,尽管微调的 LLM 的开发人员应该完成风险评估,但针对其特定用例实施产品的组织也应该完成整体风险评估,包括特定于其环境的社会技术考虑因素。
最近的立法(例如欧盟人工智能法案)提到了风险管理系统的要求。什么构成适当的风险管理系统将取决于组织、技术、立法和应用领域。我们建议利用 LLM 的医疗保健产品采用识别和解决临床伤害潜在原因的流程。
医疗保健领域的 LLM 文本摘要面临着若干挑战,概述如下,包括现有的策略和负责任和安全地使用这些工具来支持医疗保健工作流程的机会。
模型幻觉
由于 LLM 固有的下一个词预测特性,模型能够生成不正确的信息作为其输出的一部分,通常称为“幻觉”。幻觉可能看起来非常合理,并在医疗保健中构成特殊风险,其中不正确信息的后果可能很严重。
如果出现患者记录中不存在的症状或临床发现的幻觉,则可能会误诊,从而导致可能造成伤害的不当治疗。随着基础、检索增强生成和归因等功能的发展,减少幻觉和提高事实性的能力正在迅速提高。进一步的缓解措施可以包括工作流程缓解,例如在使用输出之前纳入临床医生的审查。
缺失信息
当人类总结临床信息时,需要进行一定程度的决策来确定哪些信息包含在摘要中。临床相关信息可能具有主观性,并且会根据具体的临床环境、患者的病情和医疗保健专业人员的专业知识而有所不同。没有单一的、普遍接受的“临床相关信息”定义,不同的利益相关者对相关信息的构成可能有不同的解释。
我们发现,省略与底层源材料临床相关的信息的总结是一种可能导致伤害的潜在危险。同样,将用例限制在那些可以降低风险的用例上,并采用符合医疗 IT 系统常见做法的风险管理框架,可以帮助识别错误省略信息的故障模式。我们还建议向用户提供有关模型响应局限性的教育和背景信息,类似于医疗领域其他 AI-人类交互。
有害偏见
有许多情况会导致偏见。例如,用于 LLM 的训练、微调或评估的数据可能会受到差距、偏见和刻板印象的影响,这些可能会反映在模型的输出中。当模型使用用户提交的提示数据进行推理时也会出现问题,而这些数据本身就有偏见,导致响应偏向特定文化或人口统计、促进有害刻板印象或基于性别、宗教或种族等因素表现出偏见。这些反过来可能会造成、延续或加剧不公平现象。
创建公平和公正要求对于定义预期和可接受的表现至关重要。它是在模型开发过程中实施遵循指导原则或标准的实践的一个例子。对抗性测试(例如针对潜在偏见探测模型)和公平和公正评估(例如,通过跨子组进行分解评估)是必不可少的,应该迭代使用以逐步优化和验证模型性能。有必要将模型性能传达给客户(例如以用户指南和模型卡的形式),以便让健康软件开发人员和医疗保健组织了解模型的局限性并相应地开发工具。
错误解释和期望偏差
我们发现,即使内容准确,意外或误导性的格式也会导致医疗保健最终用户的误解。例如,如果调查结果未在笔记的常规部分中显示,则可能导致临床医生认为未进行调查,即使该调查出现在笔记的其他地方。此外,如果药物列表的格式为自由文本而不是表格,临床医生可能会忽略关键的药物相互作用。
虽然及时工程可以帮助改善模型输出的格式,但缓解这种情况的另一种策略是专门针对特定医疗保健用例构建具有微调改进(包括格式)的医疗保健模型。对于 MedLM,该模型已根据来自临床医生、医疗保健组织和医疗保健软件开发人员的用例反馈进行了微调,以提高其格式性能。
有害语言
LLM 针对医疗保健用例的输出可能包含临床准确但仍然冒犯患者或临床医生的术语。例如,使用有害和煽动性的语言来描述医疗状况(例如使用“醉酒”而不是“酒精依赖”)。使用 LLM 进行文本摘要不仅应评估其内容的准确性,还应评估其感知到的同理心和适应各种社会文化背景的能力。技术过滤器也可以帮助减轻有害语言的影响。例如,技术过滤器与 MedLM 一起使用,根据模型响应包含骚扰、仇恨言论或危险内容的可能性来阻止模型响应。
可预见的滥用
由于 LLM 具有广泛的功能,如果没有护栏和教育,文本模型的使用可能会“范围蔓延”到其预期用途之外。例如,临床医生可能会要求模型将住院总结为出院总结,但如果没有界限,它可能会提出治疗计划或决策,这是无意的临床决策支持。技术、教育和工作流程缓解措施可以支持防止无意中滥用 LLM 摘要超出其预期目的。考虑故意滥用和恶意使用也是使用 LLM 的重要风险。
结论
LLM 等生成式 AI 技术具有通过医学总结提高医疗保健效率和质量的巨大潜力。但如果不负责任地实施,这种潜力也会给患者带来风险。开发以医疗保健为重点的 LLM 需要专注于临床安全和健康公平。这包括应用风险管理流程来积极识别系统的潜在危害并降低风险,并保持透明,以便医疗保健组织可以确定用例并在必要时执行自己的评估和缓解措施。
微信交流群(请扫描群主二维码,经验证后邀请入群,添加时请注明单位姓名等信息,申请入群群体:投资人,技术与研发人员,科研和医疗机构工作者,企业实控人,高校老师和学生等等一线研究人员)
星球号二维码