天津医科大学眼科医院 天津医科大学眼视光学院 天津医科大学眼科研究所 国家眼耳鼻喉疾病临床医学研究中心天津市分中心 天津市视网膜功能与疾病重点实验室,天津 300384
高飞和高雪对本文有同等贡献
通信作者:刘巨平,Email:tydljp@126.com
高飞,高雪,邵彦,等. 大语言模型在糖尿病视网膜病变患者健康教育中的应用[J]. 中华实验眼科杂志,2024,42(12):1111-1118.
DOI:10.3760/cma.j.cn115989-20240723-00207.
【摘要】目的 评价国内开源大语言模型(LLM)回答糖尿病视网膜病变(DR)患者常见诊疗问题时的准确性、完整性及可重复性,探讨其作为DR患者健康教育智能助手的可行性。
方法 收集41个与DR诊疗相关的问题及答案,问题涉及危险因素、筛查及检查、症状及分期、疾病诊断、治疗及预后5个方面。将所有问题采用"新对话"形式重复输入2次到LLM,记录所有答案。由3位高年资眼底病医师独立对回答进行评价,准确性评价采用1~6级李克特量表,完整性和重复性评价采用1~3级李克特量表。对于每个应答,评估者须在LLM回答和人工答案中给出推荐。选择5个研究者公认难度较低的题目对文心一言3.5、通义千问和Kimi chat 3个开源LLM进行测评,选择综合最优的LLM在完整题库中进一步评价。
结果 在3个LLM中,Kimi chat表现最佳,5个问题中准确性6分、完整性3分和重复性3分的比例依次为90%、90%和100%。在全部题目中,人工回复字数为106(70,202)个,明显少于Kimi chat的应答字数505(386,600)个,差异有统计学意义(Z=-7.866,P<0.001)。Kimi chat应答字数与准确性评分无明显相关性(rs=-0.044,P=0.492),与完整性评分呈正相关(rs=0.239,P<0.001)。3位评估者对2次应答准确性和完整性评分的组内相关系数均高于0.700,其中重复性评分的一致性最高,为0.853;其次为第1次回答的完整性,为0.771。应答准确性≥5分的比例为87.0%(214/246),完整性≥2分的比例为98.0%(241/246),2次回答间重复性在70%以上的比例为78.5%(193/246)。Kimi chat回答疾病定义、分期、筛查频率、常见危险因素等疾病基础性问题时表现优异,但在涉及治疗选择等需要临床医师专业判断的问题上表现欠佳。评估者推荐Kimi chat回答的比例为69.5%(171/246),未选择的原因包括缺少特征性答案、包含过多无关信息、对医疗专业度要求较高的问题回答欠缺等。
结论 Kimi chat回答DR相关诊疗问题较详细且条理清晰,具有较高的准确性、完整性和可重复性。
【关键词】糖尿病视网膜病变;健康教育;深度学习;大语言模型;评价
基金项目:天津市卫生健康科技项目(TJWJ2021QN044);天津市医学重点学科(专科)建设项目(TJYXZDXK-037A)
DOI:10.3760/cma.j.cn115989-20240723-00207
糖尿病视网膜病变(diabetic retinopathy,DR)是糖尿病主要的微血管并发症之一,是全球工作年龄人群和老年人糖尿病相关视力损伤或丧失的主要原因,患病率高达22.27%[1]。DR的发生与糖尿病病程密切相关,2型糖尿病患者患DR的终身风险为50%~60%,而1型糖尿病患者的风险则高达90%[2]。注重血糖、血压、血脂等全身因素控制,加强锻炼,控制饮食,定期筛查眼底,出现病变后及时治疗、定期复诊等措施可以有效预防DR的发生和发展,患者的自我管理能力是影响糖尿病及其并发症控制程度的关键因素[3,4]。既往研究证实,患者的健康素养与自我管理能力密切相关[5],疾病知识丰富的患者会更积极地参与健康和医疗决策,从而提高对治疗计划的依从性,并获得更好的健康结局[3,6];而缺乏疾病知识则会导致较差的结局预后[7]。因此,开展患者教育,丰富患者疾病相关知识具有重要意义。
我国目前医疗资源分配不均衡,年龄较大、受教育程度偏低、收入水平偏低的人群由于健康素养较低,亦是DR的易感人群[8,9,10,11],提升糖尿病患者,尤其是以上重点人群的疾病知识迫在眉睫。目前,除临床就诊外,患者多通过网络了解疾病诊疗相关知识,但网络信息繁杂,患者在信息过载中难以找到有效答案,且缺少个性化问题的答案,无法满足其对健康知识的需求。大语言模型(large language model,LLM)是一种使用大量文本数据训练的深度学习模型,可以理解并生成自然语言文本,模拟人类对话,对用户提示做出连贯且符合上下文的响应[12]。LLM的发展为患者获取疾病知识提供了新的途径,通过对话形式实时获取关于疾病疑问的答案,这将显著提升患者获取信息的便利性和实时性,进而加强患者的自我管理能力[13,14,15,16]。
ChatGPT是LLM知名的应用之一,在口腔、眼科、内科、肝胆学科等多领域的研究中表现出了较高的效能[16,17,18,19]。尽管ChatGPT在回答DR相关问题的效能上已得到验证[18,20],但其在国内的应用受限。文心一言3.5、Kimi.chat、通义千问等国内开源LLM的开发提供了很好的解决措施,其使用便利、对中文语言的处理更为优越,但目前尚缺少将其应用到DR患者健康教育的相关研究。
由于每个LLM模型训练数据库的固有局限性,且存在对非专家培训数据的依赖、使用过时信息等风险,LLM可以生成令人信服但完全错误的答案,"幻觉"现象无法避免,限制了其准确性[21,22]。患者不具备医疗专业知识,若获取大量错误信息,会产生过度期望、错误认知,甚至影响患者和专业人士之间的关系[23]。因此,在将LLM应用于DR患者教育前,应由专业的眼底病医师对其应答内容进行评价。本研究旨在评价国内开源LLM回答DR患者常见诊疗问题的准确性、完整性及可重复性,探讨其作为DR患者健康虚拟助手的应用潜力。
1.1 问题设计及来源
从2个途径收集与DR健康相关的问题:(1)在百度等搜索引擎、百度贴吧、小红书、知乎、好大夫在线等网站检索DR患者经常提出的问题及医师的回答,由2名研究者对挑选的问题进行筛选,排除含义相似或模糊、可能因人而异以及关于病情的非医学问题,确保问题基本涵盖诊疗的全过程,并且无过多交叉;(2)对照《我国糖尿病视网膜病变临床诊疗指南(2022年)》[4],邀请4位眼底病副主任医师及以上职称的医师提炼诊疗相关问题并给出答案。初选后的问题由整个研究小组进行集体评价与修改,以确保问题既具有代表性,又适合测试LLM平台,最终形成测评用题库,总计41个问题,这些问题包括危险因素问题6个,疾病诊断问题6个,症状及分期问题6个,筛查及检查问题4个,治疗及预后问题19个( 表1 )。
1.2 LLM测试过程和评价指标
为了保证版本的一致性,在2024年4月28日将全部问题输入拟测评的LLM平台,每个问题均使用"新聊天"功能输入2次以消除既往对话的影响,记录所有回答。3名眼底病主任医师独立对每项应答进行评分,将3位评估者对41个问题2次回答的评分合并,共计246个评分。
本研究的主要结局指标是应答准确性在5分及以上的比例,准确性采用6级李克特量表,1表示完全错误,2表示错误多于正确,3表示正确和错误元素相等,4表示正确多于错误,5表示几乎全部正确,6表示完全正确[14,24]。次要结局指标包括完整性在2分以上的比例和2次回答间重复性为3分的比例。完整性评价采用3级李克特量表,1代表不完整的回答,只涉及问题的某些方面,有重要部分缺失或不完整;2代表充分的回答,涉及问题的所有方面,并提供了完整性所需的最少信息;3代表全面的回答,涵盖了问题的所有方面,并提供了超出预期的额外信息或背景[14]。2次回答间的重复性评价采用3级李克特量表,1代表2次回答间不同之处多于70%,2代表2次回答不同比例为30%~70%,3代表2次回答基本相同,不同之处少于30%。
此外,对于每个回答,评估者均需选择更为推荐人工回答(1.1问题设计及来源)还是LLM回答。为了阐明LLM获取信息的潜在局限性和风险,评分者对错误回答提供了解释。
本研究选择3个开源LLM,分别为文心一言3.5版本、Kimi chat和通义千问进行测评,研究共分2步,首先选择研究者公认难度较低的5个题目(问题7、11、12、19、20)对这3个LLM进行测评,然后选择第1步得分最高的LLM接受题库中41个题目的完整评价。
1.3 统计学方法
采用SPSS 26.0统计学软件进行统计分析。计量资料数据经Shapiro-Wilk检验证实不符合正态分布,以M(Q1,Q3)表示,2个组间各指标比较采用Wilcoxon秩和检验。相关性系数计算采用Spearman相关性分析,3位评估者间的一致性评价采用组内相关系数(interclass correlation coefficient,ICC)。计数资料数据以频数和百分比表示。P<0.05为差异有统计学意义。
2.1 3个LLM各指标评分比较
将5个问题共10次回答的评分整合,在3个LLM中,Kimi chat表现最佳,其次为文心一言3.5,最后为通义千问。Kimi chat、文心一言3.5、通义千问准确性评分为6分的比例分别为90%、70%和20%,完整性评分为3分的比例分别为90%、60%和20%,重复性评分为3分的比例分别为100%、60%和60%( 图1 )。
2.2 Kimi chat与人工回复比较及相关指标分析
Kimi chat回答的字数为505(386,600)个,人工回复字数为106(70,202)个,Kimi chat回答字数比人工回答字数多,差异有统计学意义(Z=-7.866,P<0.001)。Kimi chat回答字数与准确性评分无明显相关性(rs=-0.044,P=0.492),与完整性评分呈正相关(rs=0.239,P<0.001)。
3位评估者2次回答准确性和完整性的ICC均高于0.700,其中重复性评分的一致性最高,为0.853;其次为第1次回答的完整性,为0.771( 表2 )。
Kimi chat 2次应答准确性评价中整体基本正确或完全正确(准确性≥5分)的比例为87.0%(214/246);各类问题的准确性评价,即基本正确或完全正确的比例由高到低依次为筛查及检查(24/24,100%)、危险因素(34/36,94.4%)、症状及分期(32/36,88.9%)、治疗及预后(99/114,86.8%)和疾病诊断(28/36,77.8%)。治疗及预后类问题中有2个问题(占3.3%)被评估者1评价为完全不正确。完整性评价中,整体充分或完全回答(完整性≥2分)的比例为98.0%(241/246);各类问题的完整性评价,即充分或完全回答的比例由高到低依次为筛查及检查(24/24,100%)、症状及分期(36/36,100%)、治疗及预后(112/114,98.2%)、危险因素(35/36,97.2%)和疾病诊断(34/36,94.4%)。疾病诊断类及危险因素类各有1个问题被评估者2评为1分。整体2次回答间重复性在70%以上的比例为78.5%(193/246);各类问题的重复性评价,即2次回答间重复性在70%以上的比例由高到低分别为筛查及检查(24/24,100%)、诊断(32/36,88.9%)、危险因素(30/36,83.3%)、症状及分期(28/36,77.8%)和治疗及预后(79/114,69.3%)。危险因素类第4题被评估者2评为1分( 图2 )。 表3 为所有回答中涉及的错误表述及分析。
在全部问题中,评估者选择Kimi chat回答的比例为69.5%(171/246)( 表4 )。未选择的原因包括Kimi chat回答未能给出特征性答案、题目与答案契合度较差、包含过多无关信息、对医疗专业度要求较高的问题回答欠缺等。
本研究比较了3个国内开源LLM回答DR患者常见诊疗问题时的效能,与文心一言3.5及通义千问相比,Kimi chat展现了较优的准确性、完整性和可重复性。在对全部题目进行评价后发现,虽然Kimi chat存在一定的局限性,但整体而言表现良好,展现了扎实的医学知识,这些发现首次提供了国内开源LLM作为DR患者健康虚拟助手的可行性评价结果。
本研究中Kimi chat回答DR诊疗问题时应答字数更长,更为详细和全面,完整性更好且条理清晰,在69.5%的问题中评估人员更推荐其产生的回答,与既往关于ChatGPT的研究结果相似[18,24]。但值得注意的是,回答的字数长并不代表回答的准确性高,应答字数过多也会出现LLM回答问题较为机械繁琐、文不对题、包含过多与DR相关但与题目无关内容的现象,导致准确性评分较低。由于评分的主观性较强,不同评估者对同一答案的评分亦存在不同[25],除2次回答重复性和第1次回答完整性的一致性较好外,其他一致性均为中等水平。为了综合评价所有评估者的评分,本研究将3位评估者对41个问题2次回答的246个评分合并进行统一评价。与Potapenko等[20]关于眼部疾病的研究结果一致,在不同分类的问题中,Kimi chat表现出了不完全一致的准确性、完整性与重复性,在如"DRCR.net如何定义持续性黄斑水肿"专业度较高的问题上和"玻璃体切割手术联合抗血管内皮生长因子药物治疗对DR的效果"涉及治疗选择等需要临床医师专业判断的问题上表现欠佳,但回答疾病定义、分期、筛查频率、常见危险因素等基础性问题时表现出色,其内容有助于患者全面了解疾病知识。"幻觉"现象,即LLM可以生成令人信服但完全错误的答案[21,22,26],在有关ChatGPT、Google Bard、OcularBERT等多个研究中均有提及[14,18,25],目前仍缺少有效方法确定模型的不确定性。与其他LLM相同,Kimi chat的应答中同样存在错误描述,如将青光眼列为荧光素眼底血管造影检查的绝对禁忌证,这可能会误导患者,引发不必要的医疗矛盾,但整体而言,未见会对患者产生重大伤害的错误信息。
多项研究对ChatGPT应用于医疗决策、医学知识问答、医学写作等领域进行了评估[27],如Suárez等[25]参考西班牙口腔外科学会的口腔外科实践文件向ChatGPT4.0提出30个口腔外科问题,结果显示最终准确率为71.7%。Yeo等[19]评估了ChatGPT3.5在回答164个有关于肝硬化和肝癌患者常见问题的准确性,结果显示准确率分别为79.1%和74%,ChatGPT3.5在基础知识、生活方式和治疗方面的表现优于诊断和预防领域。Gilson等[28]提出ChatGPT在美国医师资格考试中的表现相当于3年级医学生的及格水平。Kimi chat在回答DR相关问题时准确性为87%,完整性为98%,可重复性为78.5%,证实了其与ChatGPT相近甚至更优的效能。在已经发表的大多数研究中,LLM均表现出了较大的应用潜力,但关于其进一步应用的问题亦应引起注意[27,29,30]。首先,LLM处理并存储包括患者在聊天框中输入的个人详细信息和医疗记录在内敏感的医疗信息,如何确保这些数据的隐私保护和安全性,避免未经授权的访问、数据泄露或身份盗窃至关重要[31,32]。其次,如何规范LLM的使用并制定在不同临床环境中的使用指南值得重视[33]。最后,考虑到LLM提供的不正确或误导性信息可能对医疗环境产生负面影响,且由于LLM训练集的局限性,其提供的答案可能不是最新的,因此,应当持续不断评估LLM提供的健康信息的准确性。
LLM有可能彻底改变患者获取健康信息的方式,尽管其无法完全取代临床医师在医疗决策方面的作用,但仍可帮助患者更好地了解疾病知识,预防疾病发展,这将有助于缩短就诊时间,使医疗从业者将时间投入到更复杂的诊疗活动中。国内开源LLM高度的可及性、易用性和开源性对于改善经济困难、文化水平较低、偏远地区就医不便患者疾病知识不足的现象具有重要意义,可以改善医疗资源不均现象,提高社会公平性。同时,患者用自然语言提出问题,并迅速得到准确,甚至有同理心的回答,这也可能有助于改善患者体验,进而改善求医行为,包括治疗依从性和随访的依从性[24,34]。值得注意的是,患者需要意识到,他们是在与聊天机器人而不是医护人员进行沟通,必须向他们提供关于LLM局限性的信息且强调最终仍应以医疗人员的解释为主。
本研究存在以下局限性:(1)目前国内已有十余个公开发布的开源LLM,本研究中仅选用3个LLM进行测试,且仅对Kimi chat进行全面评价,这限制了其结果的外推性,但作为首个本领域的研究,这一结果仍可以为医疗工作者和DR患者应用国内LLM提供一定参考及依据。(2)对LLM的评价有其固有的局限性,评价是主观的,不同专家对回答的准确性可能有不同的理解。本研究通过选择眼科专科三甲医院副主任医师及以上职称的眼底病医师,确保了评估者的专业性,其次综合分析3位评价者的准确性所占百分比而非强制统一不同研究者间的分歧。
综上所述,Kimi chat在回答DR患者诊疗问题中具有较高的准确性、完整性和可重复性,尽管无法取代临床医师在医疗决策方面的作用,且存在"幻觉"现象,但考虑到其高度的可及性、易用性和开源性,在向患者提供关于LLM局限性的信息后仍可以帮助患者更好地了解疾病知识和改善求医行为,并有助于缓解医疗资源分配不均,提高社会公平性,具有良好的应用前景。
利益冲突 所有作者均声明不存在利益冲突
作者贡献声明 高飞:研究实施、数据整理、统计分析、文章撰写;高雪:研究实施、收集题库、数据整理、文章撰写;邵彦、任新军、刘勃实:题库设计、应答评估;焦明菲:题库设计;李筱荣:对文章的知识性内容作批评性审阅;刘巨平:选题及研究设计、对文章的知识性内容作批评性审阅及定稿
参考文献(略)