一、什么是LLM?
语言模型(language model,LM)通过计算单词序列的概率进行语言建模,其主要作用是基于给定的上下文,预测序列中下一个词的概率分布。随着计算能力的提升和数据量的增长,LM的发展经历了从统计语言模型(statistical language model , SLM)到神经语言模型(neural language model , NLM)的演进。
2018年,BERT(bidirectional encoder representations from transformers)模型的提出,标志着预训练语言模型(pre-trained language model , PLM)时代的开启。PLM是一种基于大量无标注文本数据进行深度学习的模型,旨在捕捉自然语言的语法、语义以及常识。
此后,一系列PLM如GPT(generative pre-trained transformer)系列、RoBERTa(Robustly optimized BERT pre-training approach)、XLNet等相继出现。
GPT系列模型通过自监督学习在广泛的文本数据上进行预训练,进而灵活地应用于写作助手、代码生成和自动化客户服务等多种下游任务。BERT和RoBERTa模型侧重于理解语境中的语言,如文本分类、命名实体识别和问答系统等。这些模型利用Transformer架构,并依赖自注意力(self-attention)机制捕捉输入数据中的复杂依赖关系,从而显著提高自然语言处理任务的准确性。当PLM的有效参数规模达到数百亿级别时,便称之为LLM。
LLM也称大规模语言模型,是由包含数百亿以上参数的深度神经网络构建的语言模型,通过自监督学习方法利用大量未标注文本进行训练。其核心思想是通过大规模的无监督训练学习自然语言的模式和结构,在一定程度上模拟人类的语言认知和生成过程。
相比传统的NLP模型,LLM能够更好地理解和生成自然文本,同时表现出一定的逻辑思维和推理能力。
LLM在多种应用场景下表现出色,不仅能执行拼写检查和语法修正等简单的语言任务,还能处理文本摘要、机器翻译、情感分析、对话生成和内容推荐等复杂任务。
在医学领域,LLM能够处理和分析海量的医学文献、病历数据等医学信息,为医学人工智能的应用提供了更加智能和高效的解决方案。
二、LLM的技术原理是?
目前,医学领域中LLM的训练流程主要分为3步:基于文本数据对模型进行预训练、基于问答数据对模型进行微调以及基于特定提示词的上下文学习,使通用模型适应医学领域的特定需求。因此,本文将从预训练、微调和上下文学习这3个步骤介绍医学大语言模型的开发与应用原理。见图1。
图1 医学大语言模型的技术原理
预训练
在医学领域,预训练通常指在大规模医学语料库(如电子病历数据、临床指南与实践规范、医学教材与学术论文)上应用自监督学习方法,使模型在无监督的环境下学习医学术语和复杂语言结构之间的语义关系。
利用掩码语言模型(masked language model , MLM)和自回归模型(auto-regressive model , AR)等方法,结合Transformer架构的自注意力机制,通过最小化交叉熵损失函数(cross-entropy loss function)对参数进行优化和权重调整。
这一过程使得模型能从语法到语义层面把握医学语言的特征,学习医学专业的词汇、术语及其上下文用法,捕捉复杂的语言结构和医学概念之间的关系,从而建立坚实的医学语言基础,形成强大的医学语言理解能力。例如:
BioMistral在PubMed文献数据集上进行预训练,使其在英语医学问答和多语言复杂评估方面表现出更高的准确性和效率;
ClinicalBERT在大规模电子健康记录(EHR)数据上进行预训练,显著提升了EHR的自动化处理能力,在患者病史摘要、临床事件提取和病程记录分析等任务中展现了卓越的性能。
微调
预训练完成后,模型通常会在特定的医学任务上进行微调,使其更好地适应特定的应用场景。
通过利用高质量的医学语料库,如医患对话、医学问答和知识图谱等中小规模、任务特定的标注数据集,调整预训练模型的参数,衡量模型预测结果与真实标签之间的差异,并通过反向传播算法更新模型参数,使其更好地满足具体的医学应用需求。
微调不仅保留了大规模预训练阶段积累的广泛知识背景,还将通用大语言模型转变为更加专业的医学大语言模型。该过程显著提高模型对医学文本的理解和生成能力。
例如,PMC-LLaMA是基于LLaMA-7B模型在480万篇生物医学论文数据集上进行微调的结果,在测试数据集上表现出对医学知识更深入的理解能力。与预训练相比,微调大大降低了计算成本,同时显著增强了模型在医学领域的实用性和性能。
上下文学习
上下文学习是指在模型输入中加入特定的提示词,以引导模型生成特定的输出,而无需训练任何模型参数。
目前,使用最广泛的是零样本提示或少样本提示。零样本提示不提供示例,旨在直接给出指令,提示LLM按照给定指令有效执行任务。少样本提示则在要求执行任务之前,向LLM提供少量示例或任务演示,利用模型的内部知识和推理能力来理解示例中的模式和逻辑,最终生成与任务相关的答案。
例如,Med-PaLM是基于PaLM模型,在少量任务示例的提示引导下训练得到,可准确回答多项医学领域选择题和开放式问题,具有与临床医师相当的效果。
上下文学习过程对于大模型在医学领域的应用尤为重要,因为不同的医学场景需要模型理解并回应极其专业和具体的指令或问题。通过设计精确的提示词,引导模型学习领域偏好,提高其专业性和准确性,研究者和临床医生能更好地利用LLM完成诊断支持、治疗建议等任务。
三、LLM能做什么?
当前,LLM已经成为推动医学进步的新生因素,其应用范畴不再局限于理论概念的验证,MedGPT等大模型分别在医疗实践、医学教育以及医学研究等多个维度展现了前所未有的价值。见图2。
图2 医学大语言模型的应用方向
通过深度学习海量医学数据,LLM不仅能辅助医生进行精准诊断和制定治疗方案,而且在加速新药研发、深化疾病理解等方面发挥了重要作用,同时也正重塑医学教育的模式。
医疗实践
(1)医疗问答
在医疗实践中,LLM在医疗问答方面展现出了良好的应用潜力。
医学大语言模型ChatDoctor收集了700多种疾病及其对应的症状、所需医学检查和推荐药物,生成了5000次医患对话数据集,并从在线医疗咨询网站获得了20万条真实医患对话数据。利用这些数据集对LLaMA大模型进行微调后,模型在理解患者需求方面表现更为优异。
该项目还设计了一个基于Wikipedia和医疗领域数据库的知识系统,能实时访问权威信息并回答患者问题。实验显示,微调后大模型的精度、召回率和F1值均超过了ChatGPT。
Med-PaLM2是Google研发的基于PaLM2基座的专家级医疗问答大语言模型,该模型在PubMedQA、MedQA等多个测评数据集上取得了最优表现,在多项选择和长形式医疗问答任务场景中表现出色。
MediSearch医疗大模型搜索引擎在美国医师资格考试数据集USMLE上测评结果排名第一,比GPT-4和Claude的表现更好。
(2)辅助诊断
在医疗领域,大模型可为医生提供疾病诊疗的新工具、新方法,辅助疾病的诊断、治疗和预防。
MedGPT是基于GPT-2的LLM,预训练阶段使用了超过20亿的医学文本数据,微调训练阶段使用了800万条的高质量结构化临床诊疗数据,并投入超过100训练。目前参数规模为名医生参与人工反馈监督微调1000亿,可支持医疗场景下的多模态输入和输出,包括开具检验检查单和给出准确诊断、治疗方案。
此外,Google联合DeepMind研发的Med-Gemini系列大模型,拥有长达100万个标记的上下文理解及多模态处理能力,在放射科影像、长文本电子病历理解、手术视频理解等多模态复杂任务场景中表现出色,能轻松应对数十万字的内容或数小时的视频分析,为临床医生提供全方位的支持。在NEJMCPC这一包含复杂诊断病例的数据集上,表现相当出色。
目前也有研究探讨LLM在神经障碍性疾病、眼科、肺癌等专科专病辅助诊断上的使用案例。医学大语言模型的应用能有效支持疾病的早期诊断,推动了医疗技术的进步和临床实践的革新。
医学教育
LLM能够快速获取和理解复杂的医学知识,在医学教育和外科培训中发挥着越来越重要的作用。
GPT-4与Med-PaLM2在医学测试场景中的出色表现,显示了LLM具的巨大潜力作为医学生入门教育辅助工。
GPT-4采取循序渐进的提问策略,引导学生主动探究,直至他们能独立思考解决问题的路径,这种互动学习模式极大促进了深度理解和批判性思维能力的培养。同时,对话日志的功能使教育者得以密切追踪学习进程,精准识别学生的学习难点,从而实施针对性的教学干预。
此外,人工智能技术在外科培训的应用前景也被广泛关注,特别是模拟手术训练、基于AI的评估工具以及虚拟现实(VR)和增强现实(AR)技术的进步,显著提高了LLM在即时反馈、多语种翻译和信息提取等方面的能力。
LLM在医学教育的应用不仅促进了教学沟通的优化,实现了个性化学习反馈的精准推送,还通过高保真模拟练习和智能化评估体系,重塑了外科教育的实践模式,使之变得更加高效、精确,从而为培养外科医生提供了强大的技术支持与学习环境。
医学研究
LLM不仅在疾病诊断中表现出色,在医学研究中也能发挥重要作用,推动对疾病分子机制的理解和新治疗方法的发现。
谷歌DeepMind和Isomorphic Labs联合发布了最新预测蛋白质等结构的大模型AlphaFold 3,可以通过准确预测蛋白质、DNA、RNA、配体等的结构以及它们之间的相互作用,增强对蛋白质的预测准确率和架构解读,进而帮助理解疾病的分子基础,发现疾病的成因和潜在的治疗目标。
此外,LLM可以通过从临床记录中提取医学术语并为其分配相应的国际疾病分类编码(international classification of diseases , ICD),来帮助自动化ICD编码。PLM-ICD是专门用于自动化ICD编码任务的大语言模型,该模型显著减少了手工编码所需的时间和人力资源,提高了医疗机构的工作效率,同时减少了人为错误。
由华为云联合中国科学院共同训练开发的盘古药物分子大模型,可以实现针对小分子药物全流程的人工智能辅助药物设计。实验结果表明,盘古药物分子大模型的成药性预测准确率比传统方式高20%,可以提升研发效率,使先导药的研发周期从数年缩短至1个月,降低70%的研发成本。
总之,LLM的应用推动了医学研究的进展,为未来的医疗技术创新提供了强有力支持。
四、LLM有什么缺陷?
数据集质量
医学领域的数据集规模相对有限,尤其在某些特定医学任务中,可用的训练数据更为稀缺。对于罕见疾病或特定医学领域的研究,由于数据集存在缺失值等问题,模型的性能难以得到有效验证和提升,泛化能力受到影响,从而限制了医学大语言模型的应用。此外,获取和标注医学数据的成本较高,也影响了数据集的质量。
为解决这些问题,可以采取以下措施:利用生成式对抗网络(GANs)等数据增强方法生成合成数据,以扩充高质量数据集的规模;开发和应用迁移学习与少样本学习技术,使模型在有限数据上仍能有效学习和泛化;建立开放数据和共享平台,推动各医疗机构和研究机构之间的合作,降低数据获取和标注成本,促进数据共享和联合训练;制定数据标准化和规范化指南。
缺乏评估基准和衡量标准
针对医学领域的语言理解任务,缺乏统一的数据集和评价指标使不同研究团队提出的模型难以在相同基准上进行客观的比较和评估。
尽管现有的基准测试数据集,如PubMedQA和MedQA(USMLE),涵盖了广泛的问答任务,但未能评估LLM在准确性、可靠性和可解释性等特定重要指标上的表现,而这些方面的评估对于医学应用至关重要,因为它们直接影响模型在实际医疗场景中的应用效果和安全性。
因此,建立统一的评估基准和衡量标准至关重要,需开发多维度评估标准,全面衡量医学大语言模型在实际应用中的表现,包括其在提供准确可靠的医学建议、忠实于医学知识、提供实用信息和具备透明推理过程等方面的能力,从而推动其发展和应用。
隐私和安全问题
医学大语言模型的应用涉及患者的隐私和敏感信息,未经适当处理的病例描述可能会泄露患者身份信息或其他敏感信息,因此面临隐私和数据安全问题。
医学大语言模型的黑盒性质增加了其不可解释性,难以追踪模型的决策过程、发现潜在的安全漏洞。在数据不足或领域训练不充分的情况下,大模型可能产生“幻觉”,从而增加误诊或漏诊的风险。此外,广泛应用医疗大语言模型可能加重医疗工作对人工智能的依赖,影响医生独立决策能力的提升。
因此,医生需要具备更高的素养来分析人工智能决策的潜在风险。解决这一问题的对策包括开展模型可解释性研究、提供决策解释的培训和教育,协助医生更好地理解模型建议;建立严格的伦理审查和规范准入机制,以确保模型应用的准确性和可靠性。
五、LLM未来方向是?
多模态大语言模型
多模态预训练研究进展迅速,不断推动下游任务的性能突破新边界,催生了多模态大语言模型。这些模型利用基础大模型提供的多种能力,如稳健的语言泛化、零样本迁移和上下文学习能力,能够处理涉及文本、图像、音频等多种数据模态的任务。
尽管目前只有极少数医学大语言模型能够处理时间序列数据,如心电图(ECG)和脉搏波图(PPG),但这些研究已初显成效,表明多模态大语言模型在自然语言处理任务之外的医学领域中也有很大的潜力。
未来,医学多模态大语言模型的发展方向可能包括:
①融合各个模态基础模型提供的高质量表征,提升整体模型的表现。重点是开发能够高效融合不同模态数据的算法,尤其是在处理异质数据时,确保模型能够充分利用每种模态的信息,以更好地整合文本、图像、音频和时间序列数据,从而具备全面的医学诊断和分析能力。
②对于视频和图像等资源密集型模态,开发新的训练方法和优化技术,探索更高效的硬件架构、分布式计算技术,以及创新的模型压缩和剪枝方法,增强模型的可解释性,同时降低训练成本,提高训练效率。
生成高质量的合成数据集
随着数据隐私和伦理问题日益突显,合成数据成为能够平衡数据使用与隐私保护的有效手段。
研究人员通过使用生成对抗网络(GANs)、变分自编码器(VAEs)等技术可以生成合成数据,这些数据不仅在视觉、文本和时间序列维度上均能达到高度的真实性与多样性,还能灵活模拟各种复杂病理状态和治疗场景,为模型提供了丰富的“虚拟病案”。在不侵犯个人隐私的前提下,构建起庞大的训练资源库,拓宽模型的学习范畴和深度。
此外,合成数据还可以用于增强模型的鲁棒性和泛化能力。通过训练精心设计的合成病例,模型被反复挑战于极端或罕见的医疗情境下,解决现实中数据稀缺、质量不高等问题的同时,增强了模型识别异常状况、适应新疾病形态的能力。
合成数据集还可以用于模拟不同人口统计特征的数据,通过策略性地生成涵盖广泛人口统计特征的患者数据,避免模型因现实世界数据偏斜导致的歧视性预测,确保算法在不同性别、年龄、种族和地域的人群中都能提供准确且无偏见的医疗服务,提高医学大语言模型的适用性和有效性。
建立大模型标准化评估方法体系
随着LLM在医学领域的应用越来越广泛,建立大模型标准化评估方法体系变得尤为重要。标准化评估体系可以确保模型的性能得到客观、公正的评价,从而为模型的开发和应用提供可靠的参考依据。建立大模型标准化评估方法体系具体可分为3个阶段。
①定义评估指标:根据医学大语言模型的特性和应用场景,制定一套涵盖模型的准确性、鲁棒性、泛化能力、解释性以及安全性等方面的详细评估指标。
②建立评估数据集:数据集的多样性和真实性是评估体系的重要基础,收集构建具有代表性且包含不同类型医学数据的评估数据集,如文本、图像、音频和时间序列数据等,并确保数据的来源可靠、标注准确。
③明确评估流程:流程包括数据预处理、模型训练、模型评估和结果分析等环节,确保每个环节的操作规范和严谨,实现评估过程的透明性和可重复性。通过建立医学大语言模型标准化评估方法体系,提高模型的可靠性和应用价值,促进医学大语言模型的规范化发展,从而提升LLM在实际医疗场景中的应用水平。
内容来源
刘泓泽,王耀国,唐圣晟,等.医学大语言模型的应用现状与发展趋势研究[J].中国数字医学,2024,19(08):1-7+13.
作者及单位
刘泓泽、唐圣晟、胡振生、杨瑞、周毅
中山大学中山医学院
王耀国
新疆医科大学公共卫生学院
通信作者
周毅
转载或任何形式的引用请留言
往期推荐
基于指标管理的公立医院绩效考核建设思考|医信青年说
“互联网+”医疗健康服务的创新研究|《中国数字医学》第9期专题策划
企业薪水高,医院更稳定?都是打工人!
如果您认为文章内容有意义,请给我们点个在看