点击标题下「蓝色微信名」可快速关注
摘要
作为人工智能的重要分支之一,大语言模型(LLMs)在处理复杂文本任务中展示了卓越的性能,并在医疗领域的多个情境中展现出其独特的优势。本文介绍了自然语言处理及LLMs的相关概念,着重讨论了其在皮肤病学领域中提高远程医疗服务质量、辅助临床工作流程及提升教育和研究效率的潜力;还重点分析了LLMs实际应用时可能遇到的挑战及改进方向,包括训练数据来源限制、输出结果质量保障问题、数据安全性和学术道德问题,旨在促进更安全、高效和可信赖的LLMs的发展,推动皮肤病学的进步。
魏思睿 陈柳青
华中科技大学同济医学院附属武汉中西医结合医院皮肤科, 皮肤感染和免疫湖北省重点实验室,武汉 430022
通信作者:陈柳青,Email:chlq35@126.com
人工智能(artificial intelligence,AI)可应用于医学的各个领域,其主要任务包括对图像和文本的处理。通过对临床图像、影像学和病理学图像的分析,AI已经能够实现多类皮肤疾病的辅助诊断[1-2]。大语言模型(large language models,LLMs)作为AI的重要分支,能够通过学习大量的文本数据,理解并生成人类语言内容,处理各种文本任务。LLMs在皮肤病学领域已展示出在临床实践、医学教育和科学研究中的应用潜力。本文介绍了LLMs的相关背景知识,总结其在皮肤病学中的潜在应用,分析了LLMs应用时可能面临的挑战与解决方案,并讨论了后续的改进方向。
一、LLMs的发展
(一)自然语言处理(natural language processing,NLP)
NLP是一个跨学科研究领域,研究如何能够让计算机理解和生成自然语言(即人类日常交流所使用的语言),使得人能通过自然语言而非机器语言实现与计算机的交互[3]。通过构建语言模型,以完成信息检索、文本分类、信息提取总结、问答、语义和情景识别、机器翻译、生成摘要等任务[4]。近年来,随着深度学习技术革新、训练用文本库的不断扩充,以及硬件计算能力的提升,NLP取得了极大的进展。最具代表性的是Transformer架构的出现[5]。
Transformer是一种处理有序数据(如文本)的神经网络架构,通过引入自注意力机制,来考虑序列中的每个元素以及其与所有其他元素的关系,从而能够更好理解和利用序列数据的位置关系。由于其强大的性能,Transformer架构在多种NLP任务中都取得了突破性的进展,为许多LLMs奠定了基础。
(二)LLMs
本质上,语言模型通过学习词汇之间的关系来预测文本中下一个词出现的概率,以完成各类复杂的NLP任务[6]。传统的语言模型存在边际效应递减,即在训练至一定程度后继续提高模型的训练数据量,并不能进一步提升模型的性能和拓展模型的功能。而基于Transformer架构的预训练语言模型,在硬件计算能力和训练用文本数据足够时,理论上没有性能上限,且随模型参数量的增多能够处理更复杂的NLP任务(如实现上下文的学习)。这些参数量极大(通常以数亿计)的预训练语言模型,被称为LLMs[7]。
由OpenAI公司开发的生成式预训练Transformer模型(generative pre-trained transformer,GPT),包括ChatGPT、GPT-4和迭代后的GPT-4 Vision,是目前最广为人知的LLMs。ChatGPT基于多种语言的大量未标记的文本进行预训练,学习词语之间的上下文关系,并通过经人工标记问题和答案进行微调。它能根据用户输入的文本生成类似人类的回答,并根据后续的输入和交互,进一步生成符合期望的答案[8]。在此基础上扩展,GPT-4 Vision能够实现对多种模态数据(包括文档、图片)的输入、理解和输出,以及互联网信息的实时查询[9]。除通用模型外,多模态医疗LLMs的相关研究也在不断进行,这些模型针对医学文本和图像进行训练,例如Med-PaLM、RadFM、XrayGPT以及针对皮肤临床文本及图像的DermAssist和SkinGPT[10-11]。
二、LLMs在皮肤病学中的潜在应用
(一)提高皮肤远程医疗服务质量
由于皮肤病学高度依赖对皮损的视觉检查,因此相比其他专科尤为适合远程医疗。远程皮肤病学即通过医患的同步(视频实时远程)、异步(图像转发储存)或混合式沟通,实现患者皮损图像、病史乃至远程影像学的传输,以及医生的远程诊断、患者教育和治疗指导[12],其诊断准确性与传统面诊基本相当[12-13]。远程皮肤病学能明显降低患者的就诊时间和花费,同时实现对患者的快速分诊和评估[13-14]。然而,仍然存在同步沟通时图像像素受限、异步沟通时不能获得足够诊断信息、对病史询问和考量不足[13-14]、药物使用不当或用法说明不全[14]等一系列问题。
将LLMs引入异步远程皮肤病学有望发挥其最大的潜力。远程就诊前,患者向LLMs充分阐述其症状与病史,通过LLMs快速生成其健康信息供就诊医师参考,减少就诊时间且避免信息不足带来的额外面诊[15]。远程就诊后,集成至远程监控系统的LLMs可通过对话形式给予患者用药指导,并进行患者健康教育,以增加患者依从性。LLMs也可应用于常规面诊的预问诊、生成病历等类似环节,以优化患者就医体验。经数百万皮肤图像训练的DermAssist可通过患者上传皮损图像及交互式问答,识别皮损解剖部位并给出参考诊断,但目前仍未得到批准用于临床,缺乏前瞻性试验验证[16]。
(二)辅助临床工作流程
1.简化临床工作:LLMs能够实现对给定信息的快速处理、总结和改写,减轻临床医生医疗文书的负担。LLMs可利用零散的临床数据撰写病程记录,或用于总结医患沟通内容以生成知情同意书,总结患者的信息以生成出院总结等[17 -18]。若LLMs与语音转文本功能相结合,有望进一步发挥其独特优势,在对患者问诊、查体并口头汇报、告知患者风险和后续治疗方案等临床情景下,无缝、全自动记录并整合重要信息,从而提高医疗文书工作效率。但目前仍需对生成内容的质量进行严格的评估,以确保信息的准确性和完整性[19]。
2.支持临床决策:皮肤疾病的诊断高度依赖图像,包括对皮损的观察、各类影像学及病理学检查。基于影像学的AI已经被广泛应用于各类皮肤疾病的辅助诊断和分级[20-21]。多模态皮肤病诊断模型SkinGPT-4,通过对仅描述基本病变的图像库以及仅含诊断和对应临床文本的皮损图像库的分步学习,在150个真实皮肤病例验证中诊断准确度可达78.76%,并给出皮损特征详细描述、诊断依据及治疗建议供医生参考[11]。在皮肤罕见病的诊断中,LLMs也具有一定的指导意义[22]。LLMs还可根据临床指南和黑素瘤患者的多种临床数据,生成个体化的临床建议和治疗方案以供参考[23]。此外,LLMs可通过患者临床记录预测30 d内再入院率、院内死亡率、出现并发症概率及住院时间,从而指导医疗工作者采取对应措施,以降低不良事件发生率[24]。Google公司的多模态大模型Med-PaLM-2能实现患者教育及辅助诊断,已在美国梅奥诊所中应用并评估其真实世界应用潜力,其结果尚待公开。
(三)辅助皮肤科教学与科研
1.辅助教学:ChatGPT和GPT4在各类医学考试中的表现显示LLMs有作为新型教学工具的潜力[25-26]。对教师而言,GPT可以根据输入的医学内容生成对应的高质量习题、病例或教案,以加深医学生对相关知识的掌握[27]。对于皮肤科学生而言,可通过GPT生成额外的解释、示意图以辅助理解,生成对皮损图像的额外描述、总结医学指南或文献的要点以供学习[28]。除客观的医学知识之外,GPT还有助于医学生主观表达能力的培养,包括用通俗的语言解释以及医患沟通能力[29]。
目前存在的问题在于,大部分LLMs为通用语言模型,其训练用的数据并非全部来自可靠的医学文献或书籍,从而可能生成似是而非或完全错误的内容,给医学生带来困惑[28]。因此,医学生需要谨慎求证LLMs自主生成的内容,不能完全将其当成常规教学的替代。
2.辅助科研:LLMs可在多个方面辅助医学研究,如研究方向探索、研究方案设计和学术写作。根据所研究问题和所提供的数据集,ChatGPT能推荐统计分析方法、设计方案并进行生存分析[30];还可对论文语言进行润色、段落改写,以及生成文章的大纲、示意图、表格乃至全文[31-32]。一项随机对照研究比较了由ChatGPT和人类撰写的皮肤病例报告,发现由ChatGPT生成的病例报告在可读性方面更好,除引用的参考文献部分错误、存在不准确描述之外,基本与人类撰写的病例报告质量相当且难以辨别[33]。同样地,由于LLMs并不能确保其生成的内容及其来源的可靠性,所以直接使用由LLMs生成的内容存在学术不端风险[34]。
三、LLMs在皮肤病学应用中的挑战
(一)训练数据来源限制
大部分通用型LLMs的训练语料数据库限制了其在临床上的进一步推广。首先,通用型LLMs的训练语料库未经过医疗领域的验证,其可靠性不能保障。GPT-4 Vision的训练语料库来自书籍和互联网,未在生物医学领域进行验证,且皮肤疾病的诊断高度依赖正确的病情文本描述(89%)而非正确的皮损图像(50%)[35-36]。可行的解决方法是通过可靠的医学文本数据库对通用LLMs进行优化训练。针对医学文本及图像进行预训练的多模态模型Med-PaLMM,在皮肤病数据集PAD-UFES-20中的宏观曲线下面积可达97.27%,即其在皮肤病诊断分类任务中表现良好[10]。然而,单纯基于医疗文本及图像训练的LLMs不一定表现良好。一项针对多模态LLMs的临床任务(识别、诊断、建议)研究中,尽管专用的医疗LLMs接受了足够的生物医学数据训练(超1 600万的模态医学问答),但其各任务的平均表现仍劣于通用型LLMs(GPT-4 Vision及Gemini)[37]。
皮肤病学是以图像为导向的领域,因此皮损图像采集质量对诊断准确性影响极大,尤其是在远程医疗中。照明、对焦、拍摄方向、拍摄设备、拍摄人群的熟练度,均会影响皮损图像的分辨率、伪影及失真情况,还可能影响临床医生对于图像的正确标注,从而影响LLMs诊断准确性[38]。因此,训练用数据库中还需加入一定的低质量图像,以保证LLMs的通用识别能力。
训练数据量的非标准化和不平衡同样会造成诊断偏倚。AI可能学习皮损图像上与诊断无关的特征(如手术标记、贴纸),并错误地将其与诊断联系。训练库中不同人种和不同疾病图像量的不平衡,也会极大影响诊断准确性[39]。例如,训练库中不包含玫瑰糠疹的患者可能被错误诊断为银屑病[40]。由于大部分公开数据库(如Fitzpatrick)中不同人种患者组成比例不同,仅基于此类数据库训练皮肤病诊断模型则诊断准确率在浅色人种(70%)和深色人种(15%)间有显著差异[41]。通过大量增加训练数据量,不同人种和不同疾病之间的诊断不一致性可得到有效改善[42]。
此外,皮肤病学知识在不断更新迭代,没有纳入最新研究成果和诊疗指南的LLMs在提供临床决策上会出现滞后甚至错误。ChatGPT及GPT-4主要使用2021年9月之前生成的文本进行训练,且ChatGPT无法实现对互联网文本的实时查询[43]。通过构建公开、可靠且不断更新的皮肤疾病文本及图像数据库,并纳入最新指南和研究成果对LLMs进行预训练,有望提升其生成皮肤病学内容的准确性和完整性[44]。
(二)输出结果质量保障问题
虽然LLMs能够完成各类复杂的NLP任务,但其本质上仍然是通过预测特定文本中下一个词的出现概率并向后填充最高概率的词,而并非真正理解词的含义,因此无法区分可靠的信息和错误的信息[6,45]。这些信息往往难以直接求证,因为LLMs在提供信息来源或参考文献时经常出错,或编造不存在的参考文献[23,46]。在皮肤肿瘤患者进行健康咨询时,ChatGPT可能作出不准确甚至有害的建议,延误患者的治疗[47]。输出结果的可重复性低也是LLMs存在的问题之一,LLMs对于同一问题的回答可能不一致,且其完整性和准确性各不相同。这种情况在面对有争议和复杂的问题,如湿疹治疗方案、皮肤抗衰疗法等话题时尤为突出[48]。其他常见的问题包括输出结果过度简化、多余或过于复杂[48-49]。
LLMs本身较低的可解释性同样阻碍了对其输出结果质量的验证。可解释性是指AI模型阐明其作出决策过程的能力,即让使用者理解模型为什么会得出这个结果,从而对结果可信度进行判断[50]。对于LLMs而言,人们不可能对数亿计的参数量代表的含义进行一一阐述,因此开发可解释的模型(即让模型提供人类可理解的决策过程作为额外的输出结果)而非对模型本身进行解释是目前的努力方向[51]。通过提示词来引导LLMs逐步生成结果,从而获得决策过程的中间步骤,也可提升模型的可解释性及结果的准确性[52-53]。通过多模态LLMs与其他深度模型协作,也能最大限度减少错误并提高可解释性,例如皮肤病诊断系统Dermacen Analytica[54],可实现皮损特征的提取及描述分析,并给出诊断及详尽的诊断理由。其对常见皮肤疾病(丹毒、毛囊角化病等)诊断结果的上下文一致性及诊断准确性可达0.86及0.87(满分为1),彰显其在远程皮肤病学及辅助临床诊断中的潜力。
(三)数据安全性
患者的隐私泄露风险是皮肤科应用LLMs所需要考量的问题。在处理皮肤科患者的电子健康记录时,LLMs可能同时获取个人信息、症状、既往病史及实验室检查,增大了识别患者身份的风险[31,43]。对GPT的恶意攻击可能导致用作训练数据的身份信息的泄露[55]。为降低此类风险,有必要对LLMs的临床使用进行监管,对患者数据进行去身份化或加密处理,并进行定期审查。
训练数据包含大量互联网文本内容的LLMs,容易受到外部攻击,导致整个模型可靠性下降。通过在训练数据中加入极其少量的虚假信息或诱导信息(约0.01%),网络攻击者能以极低的成本影响模型性能[56]。降低风险的措施包括对训练数据集进行验证,引入异常检测算法等[56]。
(四)学术道德问题
尽管LLMs在科学研究和学术写作的多个领域显示出一定潜力,但在实际应用中,其缺陷往往比优势更加引人关注[57]。与上文提及的类似,LLMs在应用时也存在编造引用来源和参考文献[58]、生成内容不可靠[46]、可重复性较差[59]和数据库可能过时[58]等缺陷。除此之外,如果LLMs训练语料库中包含他人的类似文献,可能生成较高重复率的学术内容[34,60],被视为学术不端。鉴于以上缺陷,学术期刊出版社要求在学术论文中使用LLMs生成的内容前必须经过人工审查,并由人类作者对内容的科学性和真实性负责,说明LLMs在文章中所作的贡献,同时明确禁止将ChatGPT或类似的模型列为论文作者[61-62]。研究人员应该谨慎对待LLMs生成的内容,采取必要的措施来检查和验证生成内容的准确性。
综上所述,LLMs为皮肤病学的发展提供了新的机遇,但在广泛投入临床使用前仍需解决一系列重要问题,包括维护数据安全、尊重道德规范,以及确保模型跟上皮肤病学知识不断更新发展的脚步。本文就LLMs在皮肤病学的潜在应用和障碍进行阐述,旨在说明如何利用LLMs,并提供后续可能的改进方向。此外,也应注意避免对LLMs的过度依赖。医务人员不应忽视自己的临床判断、批判性思维和解决问题的能力,完全依赖LLMs进行临床决策在目前仍存在巨大的风险。同样地,如果患者过度依赖LLMs进行健康咨询和诊断,可能会因为模型所提供的信息不足以确保准确诊断,而导致治疗的延迟或对患者的就医过程产生不利影响。LLMs是具有广泛应用前景和应用价值的工具,我们使用工具的目的是提升生产力,而非取代自身的独立思考能力。只有谨慎使用并针对目前的缺陷不断优化和更新LLMs,才能更好地扬长避短,使其在皮肤病学实践的各个方面发挥更大的价值。
(参考文献见本刊网站)
杂志介绍
《数字医学与健康》(CN 10-1909/R,ISSN 2097-3349)是由中国科协主管、中华医学会主办的多学科交叉性学术期刊。本刊已被“中华医学期刊全文数据库”“维普中文期刊资源数据库”“万方数据库”收录。
办刊宗旨:聚焦国内外数字医学和健康领域的最新发展方向,刊载数字医学和健康领域的新理论、新技术、新方法,打造学术与技术的交流与合作平台,助力“健康中国”战略。
报道范围:国内外数字医学和健康领域前沿进展;数字和信息技术在公共卫生、疾病预防、健康管理、精准医疗、辅助决策、药物研发、临床科研、行业治理、医院管理、医学教育、医疗保险、数据管理及安全等领域的应用;医学和健康与现代信息学等相关学科交叉领域的新理论、新技术、新观点等;数字医学和健康领域的国家政策和法规、行业标准和共识、循证指南、伦理要求及产业信息。
主要栏目:述评、专家笔谈、标准与规范、论著、研究方法与报告、综述、产业研究、未来医学、技术介绍与评估、伦理与监管、讲座、文献速览等。
编辑部地址:北京市西城区东河沿街69号405室,邮政编码:100052。
联系电话:010-51322158,Email:dmh@cmaph.org。
更多阅读: