【文献速览】多模态GPT-4视觉模型在医学领域准确性背后的隐忧

学术   其他   2024-09-27 18:01   北京  

点击标题下「蓝色微信名」可快速关注

Jin Q, Chen F, Zhou Y, et al. Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine[J]. npj Digit Med, 2024. https://doi.org/10.1038/s41746-024-01185-7



在医学领域,人工智能(AI)的应用正日益增多,其中多模态GPT-4视觉(GPT-4V)模型因其在医学挑战任务中超越医生的表现而备受关注。然而,一项来自首尔国立大学的研究揭示了这一模型在准确率背后可能存在的问题。研究团队对GPT-4V在解决《新英格兰医学杂志》(NEJM)图像挑战中的表现进行了全面分析(图1)。NEJM图像挑战是一项旨在测试医学专业人士的知识和诊断能力的医学影像测验。


研究结果表明,GPT-4V在多项选择题的准确性方面优于医生(81.6%比77.8%)。在医生回答错误的问题中,GPT-4V的准确率也超过78%。然而,在GPT-4V回答正确的问题中,有35.5%的情况下其推理过程存在缺陷,尤其是在图像理解方面,错误率高达27.2%


该研究提示,尽管GPT-4V在多项选择题中具有较高的准确性,但在将这些多模态AI模型集成到临床工作流程之前,有必要对其基本原理进行进一步深入评估,确保其推理过程的准确性和可靠性。


1 GPT-4V评估流程(图片来自原文“Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine”)


(编译:赵丽萍   审核:吕晗)


赵丽萍

 北京理工大学生物医学工程专业博士,首都医科大学附属北京友谊医院研究实习员。研究方向:多尺度靶标核酸适配体高效筛选、基于核酸适配体的新型分子影像探针构建与应用。


吕晗

 首都医科大学附属北京友谊医院科技处副处长、放射科副主任医师、博士生导师。兴趣方向:影像信息学。主持国家自然科学基金面上项目、青年科学基金项目等8项,在柳叶刀子刊等国际知名学术期刊上发表多篇论文,其中以第一作者发表的单篇最高被引用次数近600次,撰写指南共识7部。获国家科技进步二等奖(排第7)、2次荣获国际磁共振协会“临床研究奖”等。

杂志介绍



《数字医学与健康》(CN 10-1909/R,ISSN 2097-3349)是由中国科协主管、中华医学会主办的多学科交叉性学术期刊。本刊已被“中华医学期刊全文数据库”“维普中文期刊资源数据库”“万方数据库”收录。


办刊宗旨:聚焦国内外数字医学和健康领域的最新发展方向,刊载数字医学和健康领域的新理论、新技术、新方法,打造学术与技术的交流与合作平台,助力“健康中国”战略。


报道范围:国内外数字医学和健康领域前沿进展;数字和信息技术在公共卫生、疾病预防、健康管理、精准医疗、辅助决策、药物研发、临床科研、行业治理、医院管理、医学教育、医疗保险、数据管理及安全等领域的应用;医学和健康与现代信息学等相关学科交叉领域的新理论、新技术、新观点等;数字医学和健康领域的国家政策和法规、行业标准和共识、循证指南、伦理要求及产业信息。


主要栏目:述评、专家笔谈、标准与规范、论著、研究方法与报告、综述、产业研究、未来医学、技术介绍与评估、伦理与监管、讲座、文献速览等。


编辑部地址:北京市西城区东河沿街69号405室,邮政编码:100052。


联系电话:010-51322158,Email:dmh@cmaph.org。


更多阅读:

《数字医学与健康》投稿方式及说明

数字医学与健康
聚焦国内外数字医学和健康领域的最新发展方向,刊载数字医学和健康领域的新理论、新技术、新方法,打造学术与技术的交流与合作平台,助力“健康中国”战略。
 最新文章