医疗领域多模态AI模型的机遇、挑战与治理应对

职场 2024-11-07 07:02 四川

摘要

具有变革性潜力的多模态模型在医疗领域的快速发展和广泛应用，标志着医疗人工智能进入了一个全新的大模型时代，通过整合和分析大量的文本、图像和语音数据等，在预防、诊断和治疗各个环节推动了医疗服务的个性化和精准化。然而，随着大型多模态模型在医疗健康领域的快速发展和应用，医疗领域的监管机构和传统规则体系也面临着全新挑战。其中，虚假信息、“情感操纵”、算法偏见和侵权责任的模糊都是亟待解决的核心问题。为应对这些挑战，一是落实人工智能全生命周期安全措施，打造可信的医疗大模型应用；二是践行伦理嵌入设计的AI伦理治理理念，实现医疗大模型价值对齐；三是明确医疗大模型的产品责任规则的适用，确保对受害人的有效救济。共同推进医疗人工智能安全和有效应用，为构建更加健康、公正和智能的医疗生态系统作出贡献。

2020年，OpenAI发布GPT-3，标志着大型多模态模型（large multi-modal models，LMM）的快速发展和应用拓展时代的到来。尽管GPT-3主要是文本模型，但它在多模态应用中显示了巨大潜力，而后续推出的GPT-4则朝着多模态AI迈出了一大步。大型多模态模型是指能够处理并理解多种类型数据（如文本、图像、音频等）的人工智能模型，也被称为“通用基础模型”（general-purpose foundation model）。LMM通过综合不同模态的数据，能够提供更加丰富和精准的信息理解和生成能力。

多模态是目前人工智能的进步方向，多模态模型的相关研究和应用继续快速发展。除了传统的图文模型外，多模态模型研究还拓展到了音频、视频等其他模态中，开发出能同时处理图像、视频和音频信号的Audio-Visual BERT模型，为LMM在更广泛的应用场景中发挥作用奠定了技术基础，在丰富人与大模型的互动模式方面起着关键作用。如何将大型多模态模型应用到医疗领域是当前人工智能研究和应用的热点。现有研究中，常利用LMM综合多种数据类型来提高诊断的准确性、优化治疗方法、提升患者护理质量以及加速医学研究。据预测，多模态大模型将广泛应用于医疗保健、科学研究、公共卫生和药物开发等领域。

尽管大型多模态模型在医疗领域的应用前景非常广阔，但同时也面临着数据隐私、算法透明度、模型解释性等伦理和技术挑战。为应对这一挑战，世界卫生组织（WHO）发布Ethics And Governance Of Artificial Intelligence For Health. Guidance On Large Multi-Modal Models（以下简称《指南》）旨在针对LMM应用中的问题作出回应，为政府、科技公司和医疗机构提供具体指导建议。未来，随着技术的进步和相关法规、标准的完善，预计多模态模型将在医疗领域发挥更大的作用，为患者提供更优质的医疗服务，并加速医学科学的进步。

大型多模态模型在医疗领域的

应用现状与发展方向

多模态模型的发展速度之快，以及其在医疗领域的广泛应用，标志着现代医疗技术的一大飞跃。这些模型通过综合分析利用医疗数据的多样性，包括文本（如病历记录和科学文献）、图像（如X射线、CT扫描和MRI图像）、音频（如心脏声音），以及其他类型的数据（如基因序列数据），为医疗诊断、患者监护、行政处理和医药科学研究等方面提供了前所未有的支持和精准度。

一大应用方向便是诊断和临床护理，旨在从复杂病例管理和常规诊断中减轻医疗服务提供者的工作量。几家大型科技企业正在将其通用LMM调整为可辅助临床诊断和护理的LMM。其中，来自Google Research的多模态模型Med-PaLM-2便是专为医学领域设计，也是第一个在美国医学执照考试（USMLE）风格问题中超过及格分数（>60%）的人工智能系统。在一次医疗问题研究中，Med-PaLM-2需要理解症状，并检查患者的检查结果，对可能的诊断结果进行复杂的推理，最终选出最合适的疾病、检查或治疗的答案。与临床医生对照组的比对下，Med-PaLM-2的答案在八个维度上都优于人类医生的答案。

另一个重要的应用方向是协助医护人员指导患者，使得医患沟通更加顺畅。首先，LMM能够根据患者的具体病情、病史以及其他相关信息，生成个性化的健康教育材料和建议，帮助患者更好地理解他们的健康状况，提高他们的自我管理能力。其次，通过训练，LMM能够理解并回答患者关于疾病、治疗程序、药物使用等方面的常见问题。这不仅可以减轻医护人员的工作负担，也可以为患者提供即时的信息支持。此外，LMM还可以通过分析患者的语言和情绪来提供沟通建议，帮助医护人员更有效地与患者进行交流。LMM还可以分析从可穿戴设备或家庭医疗设备收集的数据，监控患者状态，及时发现患者状况的变化。美国的一项研究发现，在回答患者在线论坛上提出的病情相关问题时，由ChatGPT驱动的聊天机器人比合格的医生表现得更好，近八成情况下聊天机器人的回答更能获得评估人员的青睐。

此外，利用语言模型的自动化来处理优化文书等行政工作也是应用方向之一。2018年美国医学协会的一项调查显示，70%的一线医生认为日常的文书工作如患者电子健康记录挤占了日常工作时间，在很大程度上加剧了医生的职业倦怠感。而以GPT-4为代表的多模态的生成式人工智能，有望将医生从日常工作中最烦琐、负担最沉重的部分解放出来。在相关实验中，GPT-4能够“听懂”医患的对话记录，并在此基础上以病历笔记的形式进行总结后录入电子健康记录系统。对于许多专注于开发自动化临床文书产品的公司来说，以GPT-4为代表的多模态生成式人工智能将成为一项颠覆性的技术。

在医疗领域的科学研究与药物开发进程中，具备强大数据分析能力的大型多模态模型（LMM）将扮演革命性的角色。特别是GPT-4等技术，它们的应用不仅限于提高实验室研究的效率，还包括对复杂科学数据的深入解析和总结。GPT-4展现出对专业医学论文的深刻理解能力，能够提炼出关键信息，为科研人员提供准确的研究概述、重要发现的解读、相关文献的推荐，以及未来研究方向的规划。

大型多模态模型在医疗领域的

伦理挑战与责任困境

大型多模态模型常被认为可能给包括医疗领域在内的经济社会发展带来新的机遇，但也有悲观者认为LMM可能带来巨大的风险隐患，最终造成灾难性后果。就目前而言，LMM的发展应用正在带来多方面的风险和挑战。《指南》对数字鸿沟的现象作出预言，提醒世人警惕算法偏见，提升医疗领域应用LMM的安全性与公众信任度。本部分将重点聚焦于LMM的安全风险和治理挑战，以及发生事故后侵权责任分配的伦理困境。

2.1

LMM与医疗的结合，对可靠性、

准确性问题提出了更高的要求

以GPT-4为代表的多模态基础模型存在“幻觉”（hallucination）或“事实编造”（confabulation）问题，即可能输出错误的、不准确的、不真实的信息。这一现象的基本原理来自互联网信息的“有损压缩”，在“黑鼻鲑”实验中，大模型神经网络通过之前对鱼类相关知识的学习掌握，生成大致准确的描述，而并非直接从它的训练资料中复制而来。AI领域的专家Karpathy将大模型称为“造梦机”，并不认为AI幻觉属于一种缺陷；英伟达高级科学家Jim Fan也认为这是大模型与传统网络搜索的最大区别。

但在医疗领域中，LMM的运用则对可靠性、准确性问题提出了更高的要求，一旦LMM的运用出现问题时，可能引发严重的伦理挑战。例如，诊断辅助工具或治疗建议LMM的准确性不足，可能导致医生基于错误的信息作出医疗决策。这不仅可能对患者的健康造成直接的负面影响，而且还可能削弱医生的专业判断力。此外，如果LMM系统在设计或训练数据上存在偏见，可能会错误地诊断或治疗某些人群，如系统主要用某一种族的数据训练，可能无法准确地诊断其他种族的疾病，变相加剧医疗不平等。

现有的医疗大模型在测试中暴露出“不可靠”的迹象。2022年秋天，大模型AI达芬奇3在完成一次患者病历笔记任务中便出现了“幻觉”。在病历中，达芬奇3写道：“患者体重严重不足（BMI14.8）……”但实际的医患对话中并未提及有关患者体重的任何数据，因此达芬奇3实际上仅凭经验性猜测去编造并给出看似可信的BMI数值。在医学领域中，信息输出不准确是一个严重问题。

2.2

医疗AI大模型存在价值对齐问题

所谓人工智能的价值对齐（AI Alignment），就是让人工智能系统的行为符合人类的价值、目标、偏好或伦理原则。严谨地讲，AI对齐（AI alignment）是AI安全和伦理领域的一个概念，其主要目的是将AI大模型打造成安全、真诚、有用、无害的智能助手，避免在与用户交互过程中出现潜在的负面影响或危害，例如输出有害内容、产生幻觉等。在大模型时代，AI对齐对于确保人类与人工智能交互过程中的安全与信任至关重要。现在的聊天机器人等大模型应用之所以能够游刃有余地应对用户的各种提问，而不至于产生太大负面影响，在很大程度上归功于AI对齐方面的实践。因此，AI对齐是现在的大模型的可用性和安全性的重要基础。

在医疗领域，大模型前沿技术的使用已经暴露出其伴随着风险和挑战，尤其是当它们的行为与人类的最佳利益和福祉背道而驰时。在实践中，科学家发现AI已有能力对人类实施如“情感操纵”等有害行为，一名患有焦虑症的比利时患者与机器人密集对话之后选择自杀的悲剧为我们敲响了警钟。医疗健康领域直接关系到人们的生命健康，涉及敏感的个人数据和生命决策，因此，在医疗健康场景下，实现大模型的价值对齐变得尤为重要。如果AI系统的建议与医疗伦理原则不符，可能会造成医疗决策的错误导向。例如，基于偏见的数据训练得出的诊断模型可能对某些族群的疾病诊断不准确，导致错误治疗甚至延误治疗，随着数据集不断扩大，LMM中编码的偏见可能自动地扩散至整个医疗保健系统。此外，LMM的广泛应用，可能加剧医疗资源的不平等分配。《指南》指出订阅LMM的费用门槛可能导致不同国家、不同地区、不同民族无法平等地获取LMM医疗资源。

价值对齐是系统工程，对算法歧视、能力涌现、技术滥用等突出问题都有所回应。未能在大模型设计开发和部署过程中实现价值对齐，则LMM在医疗领域的后续使用中可能影响医患之间的信任关系，产生歧视、偏见、隐私泄露等伦理问题。

2.3

损害结果发生时的责任分配问题

尚不明确，伦理问责的缺失增加

LMM系统性风险

从伦理的视角看，在LMM引发的医疗事故中解决责任问题不仅仅是为了法律上的赔偿，更是为了维护患者的基本权益。医疗AI系统应该被加强监管以确保它们的安全性和有效性，同时确保在出现错误时，有明确的责任和透明的处理流程。医疗领域结合AI时，在损害结果发生时存在的责任分配问题是复杂且多维的。传统的法律和医疗责任框架主要针对的是人为错误和疏忽设计，可能不完全适用于AI引起的医疗损害。例如，如果AI系统的建议基于其训练数据得出，但这些建议在特定情况下导致了错误的医疗决策，确定责任需要考虑到AI的设计、数据质量、医生的决策过程等多个因素。随着AI技术的广泛应用，特别是在诊断、治疗建议、患者监护等方面，当出现医疗错误或损害事件时，如何实现责任分配是个难题。

一方面，技术复杂性导致责任模糊。AI系统的决策过程往往基于复杂的算法和大数据分析，这种“黑箱”特性使得追溯具体决策逻辑变得困难。当AI推荐的医疗决策导致患者受损时，界定是技术故障、算法缺陷，还是数据问题导致的错误变得不明确。另一方面，多方参与也使责任划分难上加难。医疗AI系统的开发、部署和使用涉及多个参与方，包括但不限于AI技术供应商、医疗机构、医护人员和患者，AI技术供应商又可以细分为数据采集端、算法设计端、故障测试端等，认定每个参与方在系统开发和应用过程中扮演不同角色是关键。这些问题都对现有法律体系提出了挑战。

医疗领域的大型多模态模型

治理进路

医疗领域人工智能的应用普及速度不断加快。近年来，监管部门积极完善AI医疗器械的注册申报和审批程序、使用管理规范，支持智能医学影像等辅助诊断和辅助治疗的AI医疗软件加快临床应用。目前国内已有AI医疗软件获得审批。建立有效的AI治理机制和规则来回应医疗领域的AI安全风险和治理盲区，打造可信的、负责任的、以人为本的多模态AI应用是时代所需。

3.1

落实大模型全生命周期安全措施，

打造可信的医疗大模型应用

为确保医疗大模型可信，AI伦理风险管理需要贯穿AI全生命周期，包括预设计阶段、设计开发阶段、部署阶段以及贯穿这几个阶段的测试和评估活动，以全面识别、分析、评估、管理、治理AI伦理风险。美国国家标准与技术研究院（National Institute of Standards and Technology， NIST）在《人工智能风险管理框架》（Artificial Intelligence Risk Management Framework，AI RMF）中指出在人工智能全生命周期的不同阶段存在不同的风险，将人工智能系统的全生命周期划分为计划和设计、收集处理数据等六个阶段。

AI RMF为人工智能系统的全生命周期提供了一个全面的风险管理方法，这对于中国在制定或优化AI相关政策和标准具有一定借鉴意义——整个大模型AI的生命周期都需采取与现阶段相适应的措施。从行业实践来看，在预训练阶段，主要是针对性扫除数据问题，重点是减少训练数据中虚假文本数据的数量，提高医疗领域专业文本的质量。在模型发布之前邀请专业人员开展对抗测试（Adversarial Testing）或红队测试（Red Teaming），对模型发起各种攻击，以发现潜在问题并予以解决。例如，在GPT-4发布之前，OpenAI公司聘请了50多位各领域学者和专家对其模型进行测试，帮助发现其模型在不准确信息（幻觉）、有害内容、虚假信息等方面的问题。在用户交互阶段，实施内容管控，对输出信息的真实性加以验证并识别利用医疗模型作恶的有害提问。此外，开发对AI生成内容的检测识别技术，通过训练专门的AI模型来识别生成式AI生产的文本、图像、音频、视频等各类合成内容，确保内容的来源或真实性。在此思路下，以Deeptrace Labs为代表的新兴公司对深度伪造技术提供有效的检测工具和服务，确保数字内容的真实性和可信度。

3.2

践行伦理嵌入设计的AI伦理治理理念，

实现医疗大模型价值对齐

随着科技伦理治理的发展，科技企业需前瞻性地融合伦理于AI设计之初，而非仅依赖事后补救。这种“伦理嵌入设计”（ethics by design）的理念要求在AI系统的设计、开发及部署阶段内置伦理价值和原则，通过工程化实践解决伦理原则与AI实践之间的落地鸿沟，构建可信的人工智能应用。例如，技术开发应考虑多元参与，融合跨学科专家等，确保技术发展与伦理标准同行。这样，不仅促进了技术与社会价值的一致性，也为制定伦理指导原则和最佳实践提供了基础。

对于大模型而言，价值对齐是实现“伦理嵌入设计”的一个核心思路，行业在实践中多措并举保障AI价值对齐的实现。在实践中，目前业界将AI价值对齐作为对AI大模型进行安全治理的重要思路，并在技术上取得了客观的效果，在很大程度上确保大模型部署和使用中的安全与信任。AI对齐（AI alignment）作为大模型研发过程中的一个重要环节，目前主要有两种实现方式。一种是自下而上的思路，也就是人类反馈的强化学习，需要用价值对齐的问题对模型进行精调，并由人类训练员对模型的输出进行评分，再通过强化学习的方式让模型学习人类的价值和偏好。在技术上，人类反馈强化学习（RLHF）包括初始模型训练、收集人类反馈、强化学习、迭代过程等步骤。另一种是自上而下的思路，核心是把一套伦理原则输入给模型，并通过技术方法让模型对自己的输出进行评分，以使其输出符合这些原则。例如，OpenAI采取了人类反馈强化学习（RLHF）的对齐方法，Anthropic采取了AI反馈强化学习（RLAIF）的对齐方法即所谓的“原则型AI”（constitutional AI），这些AI对齐方法殊途同归，都致力于将大模型打造成为安全、真诚、有用、无害的智能助手。以RLHF为例，RLHF在改进模型性能、提高模型的适应性、减少模型的偏见、增强模型的安全性等方面具有显著优势，包括减少模型在未来生产有害内容的可能性。OpenAI将RLHF算法发扬光大，ChatGPT借此取得成功，能够在很大程度上输出有用的、可信的、无害的内容。除此之外，产业界还在探索对抗测试（红队测试）、模型评估、可解释AI方法、伦理审查、第三方服务等多元化的安全和治理措施，共同确保负责任AI的发展。

人类反馈的强化学习（RLHF）虽然被证明是一个有效的方法，但存在可拓展性差、受限于训练员的主观偏好、长期价值对齐难以保证等问题。RLHF方法通过引入人类专家的参与和评估，不仅帮助提升了模型的性能，而且让模型变得更加安全可靠。但单纯依靠人类反馈来训练AI系统是非常低效的，因此，在后续的技术发展中，逐渐开发出了可扩展监督（scalable oversight），利用AI的自我监督以及将AI作为人类监督者的助手更高效地对模型进行优化改进。破解大语言模型的“黑箱”属性，提高技术透明度，尝试用AI大模型解释大模型的方式，诱导其逐步呈现其逻辑。成立治理组织也是关键一环，除了设立伦理审查委员会外，人工智能领域的领头企业还尝试设立任务划分更为具体的安全责任团队，如OpenAI于2024年5月成立了安全与安保委员会（Safety and Security Committee）。此外，像网络安全领域的白帽黑客那样，AI治理也可以依靠社会力量来发现、识别、解决AI模型的安全和伦理漏洞，诸如算法歧视奖励、模型漏洞奖励等众包方式得到重视。

虽然AI价值对齐在技术上取得了一定的效果，但人们对最基础的AI价值问题依然没有形成共识：如何确立用以规范人工智能的一套统一的人类价值。目前看，选择哪些原则可能完全取决于研究人员的主观判断和价值观。而且考虑到我们生活在一个人们拥有多元文化、背景、资源和信仰的世界中，AI价值对齐需要考虑不同社会和群体的不同价值和道德规范。一是确保医疗数据集多元化，用于训练AI系统的数据集需具有代表性，涵盖不同种族、性别、年龄和文化背景的患者信息。二是建立由多文化背景的伦理学家、社会学家、医疗专业人员和患者代表组成的审查团队，完全让研究人员自行选择这些价值是不切实际的，需要更多的社会参与来形成共识，监督LMM的开发和部署过程。

3.3

改革医疗大模型侵权事故中的

责任承担制度

《指南》建言政府应建立一个责任机制，涵盖大型多模态模型（LMMs）及其应用的开发、提供和部署的整个价值链，确保受害者能够索赔。对于医疗大模型侵权责任承担的问题，学术界一直存在“客体论”与“主体论”的争议。随着对人工智能认识的不断加深，考虑到主体论存在不可忽视的巨大缺陷，明确人工智能产品的客体属性，要求生产者为人工智能系统侵权承担产品责任、使用者为机器人侵权承担过错责任，适应人工智能时代对法律制度带来的冲击。

大模型智能医疗的诞生并未消除医疗产品责任的适用空间，但需要对现有的产品责任制度进行相应的改革和完善。欧盟新修订的《产品责任指令》已经明确将人工智能产品纳入适用范围。这一趋势为中国在医疗大模型侵权制度的完善提供了启示：通过对现有产品责任制度进行修订，深入剖析不同场景下的责任主体、完善AI大模型侵权构成要件如损害赔偿范围、产品缺陷以及因果关系的认定，使其适应数字世界的新要求是一种可以考虑的方向。

将医疗LMM侵权事故责任纳入产品责任规制范围，除了需要对“产品”作扩大解释外，还需要对AI领域的产品责任制度进行改造。首先，讨论人工智能系统的产品责任，关键是界定人工智能系统的生产者，明晰AI产品整个生命周期中不同的责任主体所扮演的角色；其次，LMM系统缺陷的概念需要得到明确，在AI语境下如何评估AI系统是否能按预期安全有效地运行，包括但不限于算法偏差、数据质量问题、安全漏洞等；再次，扩大人工智能产品损害的赔偿范围也有必要，可以考虑将医疗数据损失、患者精神损害等纳入可赔偿损害的范围；最后，通过建立信息披露和提供要求破解医疗大模型的算法黑箱，并辅以推定等减轻举证责任的规则，在缺陷、因果关系认定等方面适当将天平向弱势的被侵权人倾斜。

而LMM使用者承担过错责任更符合法理。在人工智能系统的使用中，过错责任原则要求证明使用者在操作人工智能系统时的不当行为或疏忽导致了损害。这一点对于自主学习和高度自主的人工智能系统尤为复杂，因为它们的行为可能超出使用者的直接控制。因此，对于那些已经尽到所有合理注意义务的使用者，应限制其责任，仅在使用者存在过错的情况下，由使用者承担侵权责任。如果损害是由于人工智能系统内在缺陷或不可预见的机器学习行为引起的，而使用者已经遵循所有操作规范和制造商指南，则无须承担责任。未来在医疗场景中，LMM的使用者承担过错责任中的一个核心考量是如何界定LMM使用者的注意义务，随着LMM介入医疗领域且有望改善医疗活动的准确性、可靠性，医护人员的注意义务可能发生改变，未来有必要通过规定先行义务来将注意义务规范化以便于判断责任方；同时，根据LMM在医疗领域中的发展应用水平对医护人员的注意义务进行相应调整，例如在一些情况下不依赖LMM的诊断结果可能被视为具有过错。这样既能激励在医疗活动中积极引入LMM应用，又能确保对医疗活动的受害人进行有效的救济。

结语

医疗人工智能已步入一个全新的大模型时代，虚假信息的泛滥、“情感操纵”的隐患、算法偏见的固有风险以及侵权责任界定的模糊性，都是我们必须直面并亟待解决的核心问题。面对这些挑战，我们应从多维度出发，确保人工智能在全生命周期内的安全性，将伦理考量深度嵌入AI的设计与应用之中，明确医疗大模型的产品责任规则，构建全面的应对策略。尤其是，AI价值对齐在解决大模型的安全和信任问题上扮演着重要角色，能够实现安全与创新的有效平衡，需鼓励、支持大模型价值对齐的技术和管理措施，推动形成相关的政策指南、行业标准、技术规范等。展望未来，相信通过跨学科、跨领域的合作与创新，我们能够有效应对医疗人工智能发展过程中的各种挑战，共同推进其安全与有效应用，开启医疗健康的新纪元。

文献来源

曹建峰，徐艳玲.医疗领域多模态AI模型的机遇、挑战与治理应对[J].中国医学伦理学，2024,37（9）：1023-1029.

【免责声明】

1.“医信头次条”所有信息仅供参考，不做任何商业交易及或医疗服务的根据，如自行使用“医信头次条”内容发生偏差，我司不承担任何责任，包括但不限于法律责任，赔偿责任。

2.“医信头次条”致力于提供合理、准确、完整的资讯信息，但不保证信息的合理性、准确性和完整性，且不对因信息的不合理、不准确或遗漏导致的任何损失或损害承担责任。

3.“医信头次条”部分文章信息来源于网络转载是出于传递更多信息之目的，并不意味着赞同其观点或证实其内容的真实性。如有侵权，请及时与我司联系。

AI+智慧医疗：智慧医院人工智能40+应用场景......

国家卫健委：公立医院信息化的“543”建设标准

连开四场发布会推广三明经验，国家卫健委释放了什么信号？

智慧医院 | 通过“543”评级的医院名单来了

http://mp.weixin.qq.com/s?__biz=MzUzMzA2ODQyMw==&mid=2247550883&idx=2&sn=9618bc888c4f2989103bb8c4e87f73a2

医信头次条

医信头次条－医疗信息行业的创新媒体与服务平台。我们致力于打造权威性、高质量的医疗生态媒体平台、通过平台报道、IP塑造、深度品牌策划与展示，为创新医疗从业者塑造行业地位。