面对眼睛不适,您是否曾因为挂号难、等待时间长而感到无助?或者,作为年轻眼科医生,面对复杂病例时,您是否希望有一个便捷的工具来辅助诊断和教学?现在,香港理工大学眼科视光学院为我们带来了一个实用的解决方案——眼科专属大型语言模型EyeGPT。2024年12月,香港理工大学眼科视光学院研究人员在 《Journal of Medical Internet Research》(Q1, IF=5.8)杂志上发表题为“EyeGPT for Patient Inquiries and Medical Education: Development and Validation of an Ophthalmology Large Language Model”的研究论文。该研究针对通用型大型语言模型(Large language model, LLM)眼科专业知识不足问题,研发了一款眼科专用的LLM问答系统,为患者咨询和眼科医学教育提供了一个有潜力的辅助工具。![]()
眼科疾病日益成为全球性的公共卫生问题。医疗资源紧张、患者等待时间长等问题屡见不鲜。而大型语言模型(Large language model, LLM)被视为优化临床工作流程的潜力工具,但在眼科领域应用面临诸多挑战,如医学术语理解不足、可能产生“幻觉”现象及评估体系不完善等问题。
图1 Eye-GPT研究概览
本研究开发了名为EyeGPT的眼科专业LLM,通过“角色扮演”提示工程、微调及检索增强生成技术,构建多个变体以满足眼科临床与教育需求。使用83,919条高质量眼科数据、14本权威眼科教科书及自制数据库,全面覆盖白内障、青光眼等多种眼科知识。为了评估EyeGPT性能,研究团队提出了一个多维度评估框架,涵盖从常见到罕见的各类亚专科眼科疾病,细分用户群体(如患者、医学生等)及查询意图,并纳入准确性、可理解性、可信度、同理心及幻觉比例等指标,构成完整评价体系,全面衡量EyeGPT能力及潜在局限性。评估结果
图2 不同微调优化策略的EyeGPT变体对比评估结果
图3 不同检索增强生成优化策略的EyeGPT变体对比评估结果
图4 EyeGPT人机比较研究
研究团队通过两轮性能评估,发现“提示工程+微调+书籍RAG”的EyeGPT在四个维度上得分最高,幻觉比例最低。在与眼科医生的对比中,EyeGPT在可理解性和同理心上表现出色,但在准确性和可信度上仍有提升空间。人机合作能提升表现。因此,研究团队强调,将EyeGPT与人类医生的专业知识和经验相结合进行综合决策,是未来发展的关键方向。结语
本研究通过组合实验验证了提示工程、微调和RAG技术能提升EyeGPT模型性能,为眼科大语言模型开发提供宝贵参考。EyeGPT有潜力助非专业人士理解眼部健康,并辅助医护人员提升诊疗效率。未来,随着高质量数据的不断加入和真实世界的进一步验证,EyeGPT将在眼科医疗服务中发挥更积极作用。原文链接
https://www.jmir.org/2024/1/e60063
![]()