小贴士
目的 本研究旨在比较3种生成式人工智能技术(GAI)在中文语境下口腔医学领域的应用价值及其存在的问题,从而为其应用提供参考依据。方法 本研究设计了36个涵盖口腔医学各专业的问题,包括病历撰写、专业知识解答、文章翻译润色等多个方面。将这些问题分别输入至ChatGPT4-turbo、Gemini(2024.2)和文心一言4.0进行回答,邀请3名经验丰富的口腔医师采用盲评法对答案进行四级李斯特量表评估,对GAI在不同应用场景的使用价值进行评价。结果 在临床文书撰写和图片制作方面,Gemini 45分,文心一言38分,ChatGPT 33分;在科研辅助方面,Gemini 45分,文心一言39分,ChatGPT 35分;在教学辅助能力方面,文心一言54分,Gemini 50分,ChatGPT 48分;在患者咨询和导诊方面,Gemini 78分,文心一言59分,ChatGPT 48分。在总分方面,Gemini 218分,文心一言190分,ChatGPT 164分。在应用场景评价中,得分最高的3项为文章翻译润色、医患沟通文案撰写和科普宣传文案撰写,分别为26、23、23分;得分最低的2项为指定文献的搜索汇报和图片生成,分别为13和12分。 结论 中文语境下在口腔医学领域应用价值从高到低依次为Gemini、文心一言和ChatGPT。总体来看,GAI在翻译润色、医患沟通文案撰写和科普文章撰写方面有较大的应用价值,在指定文献的搜索汇报和图片生成方面的应用价值最低。
随着生成式人工智能(generative artificial intelligence, GAI)技术的快速发展,其在医疗领域的应用日益广泛,包括提高论文写作效率、分析数据、个性化医疗、协助临床工作以及医学教育等多个方面[1]。在临床实践中,GAI能够协助医护人员完善医疗文书、放射检查等工作[2-5],简化流程,提高效率。同时,患者也能通过GAI获得即时的医学咨询[6-8]。在科研方面,GAI已成为一种强大的工具,特别对于非英语母语的研究人员[9],能显著提升论文写作的质量和效率[10-13]。在医学教育领域,GAI不仅为医学生提供强大的助学支持[14],还能协助教师进行教学设计和文书生成[2]。然而,GAI技术的应用仍面临不少挑战。由于数据集时效性和信息真实性等问题,GAI提供的答案并非完全准确,需要用户谨慎鉴别和判断[7-8,15-16]。此外,如何界定GAI辅助与学术剽窃的界限等,也是当前亟待解决的问题[10-12]。
目前,市场上GAI工具众多,技术水平各异,如何选择合适的工具以获得最佳帮助尚无定论。鉴于此,本研究选取了3种知名的GAI工具,分别为ChatGPT4-turbo, Gemini (2024.2), 文心一言4.0, 对其在中文语境下口腔医学领域的应用表现进行分析,为后续研究和实践提供参考依据。
●1.1 3种GAI在口腔医学多个领域中文环境下的应用表现比较
研究设计了36个问题,旨在考察GAI在口腔医学多个领域中文环境下的应用表现。这些问题涵盖了口腔颌面外科学、牙体牙髓病学、牙周病学、黏膜病学、口腔修复学、口腔种植学、正畸学等口腔医学所有专业方向,并根据其应用场景分为四类,分别为临床实践(7个)、科研工作(7个)、教学工作(12个)、患者咨询及导诊(10个)。这些问题涉及病历撰写、专业知识解答、文章翻译润色等多个方面。通过这些问题来评估3种GAI在口腔医学领域的专业知识掌握程度,并验证其在提高医生工作效率以及为患者提供咨询和导诊服务方面的潜力。
采用ChatGPT4-turbo、Gemini(2024.2)以及文心一言4.0分别对这36个问题进行回答。选取临床经验在10年以上的3名口腔医师独立采用盲法进行评估。
●1.2 评估方法
本研究采用一份四级李斯特量表对GAI的回答进行综合评价。评价系统包括一份3种GAI在相关问题中回答表现的四级李斯特量表,以及一份GAI在不同应用场景中使用价值的调查表。
李斯特量表评分规则:根据其完整性、专业性和可读性等方面进行综合评分,分数范围为0~3分,其中3分代表最佳表现,2分则代表中等表现,1分代表最差表现;若答案中存在可能导致严重不良后果(如错误决策、错误操作、引发并发症或危及患者)的错误、虚构或误解等风险因素,则该项得分为0分。若某问题的多个答案表现相近,可赋予相同分数(如3项均给2分)。最终,各问题得分累加形成总评价分数,用于各大类及总体表现的对比分析,以得出最终评价结论。
在此基础上,由上述3名医生对GAI在不同应用场景中的使用价值进行评分。满分为10分,分数越高则视为在该条件中帮助越大,并将3位医生的评分相加获得最终结果。
3种GAI在口腔医学多个领域中文环境下的应用表现比较
2.1.1 临床文书撰写和图片制作
表 1 临床文书撰写和图片制作评分
注:*在医疗相关示意图生成中,仅Gemini生成了有应用价值的图片。
2.1.2 科研辅助能力
表 2 科研辅助能力评分
注:*文心一言尚未开放联网搜索功能,在指定文献检索、内容阅读和总结部分无法检索到指定的文献,故为0分;**在英文文章润色方面,文心一言表现最好,基本满足投稿需要。
2.1.3 教学辅助能力
表 3 科研辅助能力评分
注:*题目包括5道口腔医学专业知识单选题,答对1题折算为9分;**在科研讲座海报设计环节,只有Gemini提供了有应用价值的图片。
2.1.4 患者咨询和导诊
表 4 患者咨询和导诊评分表
2.1.5 总分
表 5 患者咨询和导诊评分表
GAI在不同应用场景中使用价值的调查
表 6 GAI在不同应用场景的价值评分
近年来,GAI在自然语言处理领域取得了突破性进展,展现出与人类流畅对话和生成连贯文本的能力,并在生物医学领域引起了广泛关注。众多研究者致力于探索人工智能工具在医学临床、科研、教学等领域的应用,取得了丰富的成果。多种GAI模型已在口腔医学领域得到初步应用。然而,目前并未见GAI在口腔医学领域应用价值的研究。鉴于此,本研究选取了国内外具有代表性的3种GAI模型进行测试,旨在探究它们在口腔医疗领域中的最佳应用效果。
ChatGPT作为OpenAI公司于2022年底推出的大型语言模型聊天机器人,以GAI为技术基础,已广泛应用于对话系统、文本摘要和机器翻译等领域。ChatGPT的出现标志着自然语言处理领域的一大飞跃[17]。2023年2月,谷歌推出了自己的GAI模型Bard,同年12月,谷歌发布了新型多模态模型Gemini,并开始了与Bard的整合与升级,并在2024年2月正式将Bard模型改名为Gemini[18]。在国内,GAI领域仍处于追赶阶段。多家厂商纷纷宣布推出自己的人工智能大语言模型,其中百度于2023年8月开放访问的文心一言大语言模型备受瞩目。为全面评估各模型性能,本文将上述3种模型应用于口腔医学领域,对其进行比较和分析,验证其与专业医生专业能力、思维方式等方面的差异。
医患沟通是临床工作中非常重要的环节,直接关系到诊疗过程能否顺利推进,良好的医患沟通能力是每一名口腔医生都应该具备的专业素养。但在日常工作中,由于患者数量庞大,医生有时无法做到充分的医患沟通。此外,医生还需要承担部分宣传、科普、病历书写等一系列任务,这都将分散医生真正投入治疗的时间与精力。随着GAI的逐步发展,通过这一工具减轻口腔医生工作量的可能性逐步提升,为此本研究设置了一系列问题以验证可行性。结果表明:在涉及文案撰写生成的题目中,文心一言表现最佳(2项第一、1项并列第一、2项第二),这可能与其有中文训练、拥有最佳的中文支持度有关。然而,在临床方向的总体评分中,文心一言仍低于Gemini,因为文心一言在一道图片生成题目和一道信息搜索题目中均得分较低,而Gemini则在这两个问题中均获得了最高分。这可能与文心一言多模态能力不足、无法联网搜索有关。虽然文心一言能够根据关键词生成一些简单的图片,但这些图片可靠性不高。其主要原因是无法联网搜索导致文心一言只能依赖其内置的数据库,因其数据库在内容量、时效性等方面尚存在问题,致使文心一言的部分答案不系统、不准确与不适用。
在科研工作中,文献的精准检索与阅读是开展研究工作的基础之一,借助人工智能工具快速完成文献筛选与内容阅读能够极大提高科研前期工作效率。本研究的结果显示:人工智能工具确实可以协助科研工作者完成部分前期文献搜集阅读工作,在指定方向的论文检索中,ChatGPT能够根据关键词在PubMed网上检索相关论文并提供链接,Gemini则能够从更多的网站中检索内容,两者也能在一定程度上完成相关文献内容的阅读、翻译与总结,对于科研工作者可提供部分帮助。由于无法联网搜索,文心一言只能够从其内置数据库中检索内容,而这种非及时更新的搜索结果很难真正帮助到研究人员。与此同时,无法联网也意味着对于指定论文的检索、阅读、翻译与总结等任务几乎无法完成。
撰写综述和课题申请书也是重要的科研工作,因此,本研究设计了相关测试。结果表明,在内容撰写方面,无论是综述还是课题申请书,三者都无法直接生成完整的、可用的内容,而只能以大纲的形式完成回答。经过评估,3种GAI生成大纲均有一定的参考价值,可为科研工作者提供一定的指导和帮助。在上述场景中,Gemini的表现最佳。
研究人员在论文写作时为了完成一篇高水平的文章常需要花费更多的时间在润色和翻译等语言工作,这对于非英语母语的人来说往往意味着花费更多的时间。GAI为此提供了新的方法,本研究采用中文文献输入GAI中进行文章润色,结果显示文心一言完成最好,其内容可以基本满足文章投稿的要求。
教学工作常从教案书写与教学PPT的制作开始,与上文中文案撰写与提纲设计的题目类似,GAI的回答依旧有一定的参考价值,文心一言在这一部分中依旧凭借高中文支持度表现最佳。值得注意的是,在涉及到专业相关知识的简单问题中,GAI虽然可以完成简单的答疑工作,但其回答中仍不时存在错误,不能替代教师的工作,在使用时需要特别谨慎。在涉及到逻辑推断和比较的问题中,3种GAI均表现不佳。在涉及到图片生成的题目中,针对明确规定了要求的图片,仅Gemini在网络中找到了合适的模板并成功绘制出具有应用价值的图片,这再次验证了其多模态的优势。
对于患者来说,优质的诊前咨询能够最大程度地减少由于选错医院或科室而带来的时间成本,也有助于患者和家属加强对疾病、治疗和预后的了解。GAI全天候在线、及时回复、较低使用成本的优势能够为满足患者及时诊疗的需求提供新的选择。与第一部分研究结果类似,在文案生成类的题目中,文心一言与Gemini均表现良好。但当涉及到逻辑推断与比较时(如医院选择、导医、治疗方案咨询等),文心一言往往不能得出最合理的答案,而Gemini的回答仍具有较高的参考价值。
综上所述,在中文环境下口腔医学领域的应用中,3种GAI的总体使用价值从高到低依次为Gemini、文心一言、ChatGPT。Gemini在专业知识介绍、信息检索、文献检索与翻译、图片生成方面表现最佳,在各类文案、大纲生成方面的问题,其能力也仅稍弱于文心一言。这与其较高的中文支持度、优秀的多模态性能及强大的互联网搜索能力相关。文心一言在涉及到中文文案内容生成、中英文互译的题目中表现出色,该部分评分高于Gemini,但是由于文心一言多模态能力较弱且尚未开放联网搜索功能,其在涉及图片生成及无法从其数据库中获得答案的题目时表现不佳。ChatGPT总体来看对于中文的支持度并不高,与其他2种GAI相比优势并不突出。
在上述研究基础上,本研究还对GAI在口腔医学各应用场景中的使用价值进行了调查,结果显示:在医疗文书书写方面,GAI能够提取关键信息并完善基本结构,具体细节经医务人员校对修改后即可使用。在医患沟通文案撰写环节,GAI能较系统、全面地提供信息,基本满足患者需求,经医务人员微调后即可使用。在科普宣传方面,GAI能全面撰写相关内容并提供图片供参考,语法逻辑通顺,易于阅读。然而,在图片生成方面,3种GAI中仅Gemini可通过互联网直接引用部分图片,但仍有待完善。在专业知识问答环节中,GAI提供的内容具有一定的参考价值,但可靠性仍存在一定问题,需要专业人员认真校对。文献检索汇报方面,GAI整体表现较差,甚至存在无法检索或虚构的情况,缺乏实用价值。在文章翻译润色方面,GAI表现良好,尤其是文心一言,对研究者具有实际价值。在项目申请撰写、教学设计和医疗咨询导诊方面,GAI虽能提供一定的参考,但内容中可能存在的纰漏及虚构,需使用者认真查证。
总体来看,GAI在医患沟通、科普宣传与文献翻译润色方面能提供较大帮助;在涉及专业知识及实际操作的领域,其帮助有限,仅可作为参考。因此,在使用GAI时,特别是在涉及专业知识的方面,使用者需保持警惕,审慎对待其生成的内容。
目前人工智能评价体系可以分为客观评价和主观评价。前者包括准确性、速度、可靠性和灵活性等。这些指标能够直接反映人工智能系统在处理任务时的性能和质量。后者则包括界面的友好性、功能的实用性、系统的稳定性以及整体的用户体验等,能够集中反映人工智能系统在特定场景的应用价值。本研究的目的是比较3种GAI在中文语境下口腔医学领域的应用价值及其存在的问题,因此选择了主观评价方案。具体来说,本研究选用了李斯特量表对3种人工智能工具进行评价。李斯特量表是由美国社会心理学家伦斯·李斯特(Rensis Likert)于1932年提出的,它是一种评分加总式量表,其设计目的是测量态度、看法或者感受等。李斯特量表最初是为心理学和社会科学研究设计的,但其评分和衡量态度的机制近年来被广泛用于软件和人工智能工具的评价。
虽然本研究证明了GAI在口腔医学领域的广阔应用前景,但也应注意,GAI在伦理和学术不端方面存在的问题日益凸显。这主要源于其强大的内容生成能力和可能带来的误导性影响。本研究的结果也证明了这一点,对于少数问题,GAI生成的内容可能不准确或误导用户[7-8,15-16]。在学术不端方面,GAI的滥用也已成为一个不能忽视的问题。一些学生和研究人员可能利用AI工具进行论文和课程作业的抄袭[12],这不仅损害了学术诚信,也阻碍了知识的创新和进步。因此,针对GAI在口腔医学的应用,必须通过加强伦理考量、建立严格的学术规范和监管机制、加强跨学科合作与交流以及关注可持续发展等方法,才能确保GAI的健康发展。另外,人工智能模型发展迅速,不断更新,但模型的版本之间具有连贯性,读者依旧可以参考本研究对更新内容进行评估,选取合适的模型使用。
综上所述,在口腔医学领域应用价值从高到低依次为Gemini、文心一言、ChatGPT。总体来看,GAI在翻译润色、医患沟通文案撰写和科普文章撰写方面有较大的应用价值,在指定文献的搜索汇报和图片生成方面的应用价值最低。
来源:华西口腔医学杂志