ChatGPT是由OpenAI开发的基于人工智能(AI)的大型语言模型(LLM),它的出现改变了个人在线访问健康信息的方式。LLM能够生成类似人类的文本,通过友好的方式对患者进行询问,同时提供快速响应,并以此改善医疗保健沟通的潜力。与可能缺乏个性化的传统搜索引擎不同,LLM克服了沟通障碍,提供了一种集中且直观的方法来解决患者的咨询。2020年的一项研究显示,目前越来越多的人转向互联网获取健康信息,早欧洲有超过一半的人群(55%)通过在网上搜索健康信息。同样,在美国,寻求在线健康信息的人数比例从2008年的62.8%增加到2017年的74.7%,这凸显了评估LLM以确保他们提供准确可靠的健康信息的重要性。
本研究旨在评价ChatGPT提供的信息的准确性和可重复性,以回答有关静脉曲张射频消融(RFA)的常见问题。
在这项横断面研究中,血管外科医生将ChatGPT回答的72.7%咨询信息评估为准确,且有高重现性(89.8%)。认为ChatGPT具有增强患者教育和决策的潜力。
研究人群及方法
这项横断面研究在巴基斯坦卡拉奇的阿加汗大学医院进行。研究人员通过可靠的在线来源整理出一套关于静脉曲张射频消融术(RFA)的18个常见问题(FAQs),并分使用ChatGPT的“新建聊天”选项向其进行2提问。再由12位经验丰富的血管外科医生(每位医生拥有超过2年的工作经验,且每年至少完成20例RFA手术)采用4分Likert量表独立评估所回答内容的准确性,并评估可重复性。
研究结果
研究共收到15份回复,其中3份因不符合纳入标准而被排除。进行内容评估的12名血管外科医生,主要为男性(83.3%),平均经验为12.3±6.2年,其中大多数来自英国(50%),其次是沙特阿拉伯(25%),巴基斯坦(16.7%)和美国(8.3%)。(表1)
表1
在18个问题中,有12个回答被至少75%(9/12)的评价者评为“准确但不够充分”或“全面”(表2)。在总共216个准确性等级中,最常见的分配的等级是“全面”(n=87/216,40.3%)和“准确但不够充分”(n=70/216,32.4%),而只有17.1%(n=37/216)被评为“准确和不准确信息的混合”,10.8%(n=22/216)被评为“完全不准确”。每个问题的准确性等级总结见图1。
表2
图1
但是回答的可重复性很高,两次输入之间有89.8%(n=194/216)的回答是一致的(表II)。其中问题1、2、4、5、8、11、12、13和18的可重复性达到了100%。
表3汇总了12位评估者对所有问题的平均评分和评分者间信度,这些问题被分为三个类别:治疗前关注事项、程序信息、恢复与结果。治疗前关注事项的平均准确评分为3.08 ± 0.07,程序信息的平均准确评分为3.00 ± 0.28,恢复与结果的平均准确评分为3.00 ± 0.16。总体而言,平均评分为3.03 ± 0.19,且评估者之间的分歧不显著(FK:-0.028,95%CI [-0.063,0.008],p = 0.131)。
表3
在所有回复中,70.4%(152/216)被确定为“质量良好”和“可重现”,没有一个属于“质量良好”和“不可重现”类别(表4)。共有19.4%(42/216)的回答被认为是“质量差”和“可重现”,而10.2%(22/216)被认为是“质量差”和“不可重现”。
表4
结论
ChatGPT通常能为寻求静脉曲张射频消融(RFA)信息的患者提供准确且可重复的信息。然而,该研究也强调了回答质量和评估者一致性方面的差异性,凸显了在依赖人工智能生成的健康信息时需要谨慎。研究结果表明,大型语言模型(LLMs)通过提供便捷且及时的信息,有潜力提升患者教育水平并支持明智决策。不过,回答质量和评估者一致性方面的差异性也指出了在人工智能训练和验证过程中需要持续改进的必要性。未来的发展应侧重于整合信息验证和更新机制,提高数据来源的透明度,并解决回答准确性方面的局限性。
文章来源:
M. Anees, F.A. Shaikh, H. Shaikh, N.A. Siddiqui, Z.U. Rehman, Assessing the Quality of ChatGPT’s Responses to Questions Related to Radiofrequency Ablation for Varicose Veins, Journal of Vascular Surgery: Venous and Lymphatic Disorders (2024), doi: https://doi.org/10.1016/ j.jvsv.2024.101985.
硕士研究生
重庆市人民医院心血管外科
PREVIOUS REVIEW
一键进入血管和介入医师交流社区
扫码进入血管和医介大咖交流群