ECCV 2024 Oral | 杨林团队&林涛团队提出最大规模、专家验证的高质量病理大模型测试基准数据集PathMMU

学术 2024-09-13 14:00 浙江

导言

ECCV 2024 收录论文

在现代医学中，病理学是诊断和理解疾病不可或缺的基础，近年来随着数字病理学的发展和人工智能技术的崛起，病理学领域经历了巨大的变革。相比传统病理模型通常只针对特定任务进行优化，新兴的大型多模态模型（LMM）展现出了处理广泛任务的能力，极大地推动了对病理区域全面识别的实现。

然而，当前仍缺乏专业的大规模病理测试集来全面评估这些多模态模型在病理图像理解和推理方面的性能。

图1. PathMMU基准的概述

为此，研究团队构建了一个庞大的多模态病理基准数据集PathMMU，这是迄今为止最大规模的病理学基准数据集。

其测试集部分由七位专业病理医生进行严格标注，以确保测试集和验证集符合严格的标准，并对人类病理医生以考试的形式进行盲测，设定人类专家的性能基准，以评估参与PathMMU考试的病理学家们的表现。

此外，研究者对14个开源及4个闭源的大型多模态模型进行了广泛评估。实验结果表明，这些模型在病理图像理解能力上普遍表现不佳，存在通过走捷径不依赖图像进行猜题的问题，与人类专家的表现还存在显著差距。因此，将现有多模态大模型应用于临床的仍然存在明显局限性。

该论文被计算机视觉顶级会议ECCV 2024录用，并入选口头报告（Oral，接受率约为2.3%）。论文由杨林实验室博士生孙宇轩担任第一作者，杨林教授、林涛教授为共同通讯作者，西湖大学为通讯单位。

ECCV会议是计算机视觉三大顶级会议之一，录用论文代表了计算机视觉领域2024年最高的学术水平。2024年会议接收有效投稿8585篇，论文录取率为27.9%，其中口头报告比例约为2.3%。会议定于2024年9月29日至10月4日在意大利米兰举行。

PathMMU基准数据集的特点

全面专业的数据：数据集来源于病理专业文章、病理图谱、教学视频、社交平台医生分享的图像等，并由七位病理专家审核，确保专业性。

有效且有价值的问题：问题设计要求基于图像详细观察，符合病理考试标准，确保问题有效、可回答。

大规模：PathMMU仅验证测试集就包含超过一万条图像-问题对，是当前最大病理数据集，助力探索LMMs在病理学中的潜力。

高质量图像：图像清晰度高，平均分辨率约为900 × 700像素，确保细节可见。

可解释答案：每个答案附有解释，增强模型的可解释性，支持相关研究。

PathMMU数据集构建方法

图2. PathMMU 多模态问答生成的流程示意图

步骤1：数据收集与预处理

PathMMU数据集来源广泛，并整合为多个子集：PubMed、EduContent、Atlas、SocialPath和PathCLS。通过病理专家的人工审核和筛选，确保了超过 30,000对高质量病理图像-文本对，这些配对构成 PathMMU的基础。

步骤2：描述生成与问答对生成

由于部分图像与说明相关性较弱（如来自于社交平台收集的SocialPath子集），我们使用 GPT-4V 辅助生成更为详细的细胞和组织描述，同时要求GPT-4V参考病理专家提供的原始描述，以减少幻觉等描述的不准确可能，确保描述的专业性和相关性。

步骤3：问题生成与专家验证

在生成图像描述后，GPT-4V 为每张图像生成三个多项选择问题，并由多个 LLM 验证排除可以通过纯文本猜对的问题，以确保PathMMU针对模型多模态能力的评估能力。

最后，七位病理专家对PathMMU验证测试集部分约12,000个题目进行人工审核，按照以下标准评估：(1) 是否能在没有图像的情况下回答问题；(2) 是否可以从提供的问题和图像中推断出答案；(3) 答案是否错误、没有正确答案或存在多个正确答案；(4) 生成的问题是否与标准病理考试不符。不符合以上任意一点的问题将被视为无效并移除，确保数据集的准确性和专业性。

实验结果

多模态大模型的零样本评估

先进的多模态大模型在PathMMU数据集上表现不佳，18个模型中有15个准确率低于40%，表现最好的GPT-4V仅49.8%，显著低于病理专家的71.8%。

闭源纯文本大模型在不提供图像时的表现与开源多模态模型相当甚至更好，GPT-4 Turbo、Vicuna-v1.5-13B、GeminiPro和ERNIE-Bot 4.0表现超过半数开源 LMM，显示出强大的通过逻辑推理来“蒙题”的能力。

较大的LMM表现更优，如LLaVa-1.5-13B比LLaVa-1.5-7B高2.2%，InstructBLIP-FLAN-T5-XXL 和 BLIP-2 FLAN-T5 XXL分别比小版本高2.1%和 1.7%，表明较大模型在病理学中具备更强的多模态能力。

图3. 多模态大模型的零样本评估

多模态大模型鲁棒性测试

在实际病理学中，模型的解读直接影响医疗决策，因而强鲁棒性的模型对临床应用至关重要。病理切片的质量会受到染色、扫描和存储等因素影响，如JPEG压缩、像素化、模糊（如气泡、失焦、运动模糊）及颜色变化（亮度、饱和度、色调）。我们将这些仿真损坏应用于病理图像，以测试 LMM 的鲁棒性，评估其在实际临床环境中的稳定性和可靠性。

图4. 模型在 PathMMU 测试集（test-tiny）上的鲁棒性评估

图5. LMM 在 PathMMU 测试集上，用随机高斯噪声图像替换原始图像的结果

LMMs在应对图像损坏时表现出一定的鲁棒性，但其真实性能存疑。例如，如图4所示，Qwen-VL-7B 在图像损坏情况下的表现比基线提高了0.6%。我们推测，这些损坏主要影响病理图像中的细微特征，如染色质形态和细胞质空泡化，而这些细节 LMMs 难以辨识，因为它们在通用领域训练时更关注大而显著的特征。此外，LMMs 可能利用虚假相关，以文本模式回答问题，削弱了其在病理学中的可靠性。

为验证观点，我们进行了极端测试，将图像替换为高斯噪声。如图5所示，即便图像不包含相关信息，LMMs 仍优于随机选择，性能下降仅为1.0%至4.5%。这表明 LMMs可能依赖文本信息进行预测。此外，不同尺寸模型的性能下降相似，表明图像贡献一致，模型提升主要源于语言组件而非视觉部分。

对LMM通过纯文本猜测题目答案的思考

图6. 左图：LLMs 与人类专家在100个可文本猜测样本上的表现对比。右图：LLMs的猜题能力分析

为了展示LLMs的猜测能力，我们随机选取了100个在Q&A生成中被过滤且可被多种LLMs正确猜出的样本，并邀请病理专家参考图像回答。如图6左图展示，即使有图像参考，专家表现明显低于闭源 LLMs。这表明 LLMs 可能通过识别问题中的捷径超越人类。

我们推测LLMs的猜题行为源于：(1)选项在病理临床场景中的出现频率；(2)选项呈现一正三反；(3)选择与题目对象病理特征最相近的选项。

为了验证我们的假设，我们在这些样本中交换问题，但保持选项不变，创建出问题与选项完全不匹配的样本。图6右显示，LLMs仍能猜对约50%的样本，显著高于随机水平，表明模型倾向于选择最常见或最显著的选项作为答案，支持假设(1)和(2)。为进一步探究假设(3)，我们使用 BERT-large 和 BiomedBERT-large的 Next-Sentence Prediction (NSP) 机制评估问题与选项关系，以深入分析模型的行为, 通过预测问题和选项之间的关系，选择最可能为正确答案的选项。

结果显示，这两个模型的表现仍然显著优于随机猜测，证明直接匹配问题和选项是模型猜对答案的可行方法，支持假设 (3)。此外，BiomedBERT-large 比 BERT-large 的表现更优，表明在生物医学数据上的预训练使模型具备更广泛的病理学知识理解。

总结

本研究介绍了PathMMU，这是目前最大且最高质量的病理学基准数据集，专为评估LMMs在病理图像解释与推理能力而设计。PathMMU通过严谨的数据收集与筛选，并由七位病理学专家严格审核，以确保数据的质量和专业性。同时，我们建立了人类专家基准，以量化LMMs与专家之间的差距。结果显示，先进的LMMs在PathMMU上表现不佳，难以识别病理图像细节，甚至忽视视觉信息，凸显实际应用中的差距。

病理学 LMMs 的未来发展方向

PathMMU的经验表明，LMMs需关注以下领域：

(1) 当前LMMs过于依赖文本，忽视视觉信息，需探索更好融合视觉与文本的方法。

(2) LMMs常走捷径解决问题，需开发更可信的模型以满足临床需求。

(3) 多数LMMs不支持多图像输入，而病理学家通常从不同位置和倍率观察病理全场图的区域图像分析样本，这凸显了开发支持多图像输入模型的重要性。我们相信PathMMU将推动病理学LMMs的新一代发展。

来源 | 杨林实验室

撰稿 | 孙宇轩

编辑 | 冯晨希

校对 | 彭玥

审核 | 苏凌菲

西湖大学工学院面向国家战略性新兴产业发展重大需求，着力建设交叉学科与新兴学科为特色的工程技术学科群，努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。工学院以国际高端人才为学科带头人构建科研团队，分阶段、分领域打造一流人才队伍。

工学院目前重点建设七大研究领域 (Programs)——人工智能与数据科学、生物医学工程、化学与生物工程、电子信息科学与技术、材料科学与工程、机械科学与工程、可持续发展与环境工程。围绕七大领域，工学院已建成一批高水平实验室和研究中心，其中已获批成立全省3D微纳加工和表征研究重点实验室、全省智能低碳生物合成重点实验室，培育建设浙江省海岸带环境与资源研究重点实验室，建立微纳光电系统集成浙江省工程研究中心。

扫描二维码｜关注我们

西湖大学工学院

School of Engineering

Westlake University

http://mp.weixin.qq.com/s?__biz=MzkwODIzNDAwNA==&mid=2247496404&idx=1&sn=b7048e0f4a07d8534aef887436487516

西湖大学工学院SOE

西湖大学工学院致力于面向国家战略性新型产业发展重大需求的科技创新和人才培养，建立交叉学科与新兴学科为特色的应用科学、工程技术学科群，建成国家重大科学技术研究和拔尖创新人才培养的重要基地。

这项“盖章”新技术，AI很喜欢

这篇新闻的作者，非人类

Nature发表西湖大学姜汉卿实验室关于智能触觉模拟的最新合作研究成果

千分之二！西湖大学工学院博士生获人工智能顶会大奖

西湖大学工学院柳佃义课题组研究进展 | 聚合物半导体薄膜与细菌杂化的人工生物叶片

官宣！姜汉卿获奖

明日启幕 | NLPCC 2024 Call for Registration

关于召开2024中德新能源、新材料及生物智造论坛的通知（第二轮）

图灵奖得主：AI时代，我们还能教学生什么 | 西湖笔记

ECCV 2024 Oral | 西湖大学工学院袁鑫实验室提出首个低位量化的视频单曝光压缩成像重建框架

西湖大学工学院人工智能系19篇论文被国际学术会议NeurIPS 2024录用

西湖大学工学院人工智能系多篇论文被国际学术会议EMNLP 2024录用

观众报名 | Michael Graetzel教授作客第11期西湖云谷论坛Yungu Lectureship

冻土孔隙中物质运输的“高速公路” | 西湖大学工学院雷亮团队研究进展

论坛预告 | 请你来听，一个世界中的上千个世界

ECCV 2024现场 | 西湖大学工学院人工智能系4篇Oral，其中2篇入选Best Paper Finalist

西湖大学工学院30位教授入选2024年全球前2%顶尖科学家榜单

西湖大学工学院Thomas Wanger团队探讨纳米/微米塑料污染对农业景观中昆虫生态服务和粮食安全的跨层次影响

Cell Press×西湖大学工学院系列研讨会收官 | 重磅嘉宾演讲精彩回顾

首发！“西湖制造”实现AR眼镜关键技术突破

西湖大学工学院仇旻团队研究进展 | 范德华接触体系中实现高精度光学微操控

免费注册&直播预约 | Cell Press携手西湖大学工学院、光电研究院举办“通信和传感设备”研讨会

二氧化碳=食物、燃料、脑黄金？这场大会带你一探究竟

ECCV 2024 Oral | 杨林团队&林涛团队提出最大规模、专家验证的高质量病理大模型测试基准数据集PathMMU

西湖大学讲席教授Marco Amabili获评美国机械工程师学会荣誉会士

ECCV 2024 Oral | 袁鑫实验室提出隐式扩散先验增强的深度展开网络

西湖大学工学院张越团队研究进展｜合成聚多肽精准阻断TLR9与免疫复合物多价作用抑制炎症反应

西湖大学工学院李文彬团队&李子青团队：分子模拟与人工智能揭示四肽与五肽全序列空间内短肽聚集规律

关于召开2024中德新能源、新材料及生物智造论坛的通知（第一轮）

全球工科大佬聚首，AI成了他们跨学科的共同语言

免费注册 | Cell Press携手西湖大学工学院、西湖大学光电研究院举办“通信和传感设备”研讨会

ACM MM 2024 Oral | MAPLE实验室提出图像定制化算法Equilibrate Diffusion

录取率4.2% | 人工智能背后的年轻大脑在思考什么

西湖大学工学院姜汉卿团队开发新型动态三维超表面及柔性触觉界面

西湖大学工学院2025年博士研究生招生简章

ECCV 2024 Oral | 王东林实验室提出轨迹引导的时空对齐视频大模型

会议日程发布 | 关于召开第二届中国一碳生物技术和低碳产业发展大会的通知（第三轮）

光学-电化学耦合分析方法量化电荷储存动力学 | 西湖大学工学院陆启阳课题组研究进展

西湖大学工学院鞠峰团队在缺氧潮间带含水层发现氨氧化古菌新属Candidatus Nitrosomaritimum

腾讯杰出科学家郑冶枫全职加入西湖大学主攻医学人工智能

西湖大学工学院携手Cell Press首场物质科学研讨会成功举办 | 重磅嘉宾演讲精彩回顾

Yungu Lectureship第十期精彩回顾 | 再生材料与聚合物生命周期控制

西湖大学人工智能方向6篇论文被国际学术会议ACM MM 2024录用

西湖大学工学院向宇轩团队研究进展 | 多层级修饰策略提高钠离子层状氧化物正极电化学循环稳定性

“三言” 回顾 | 首届长三角工科研究生学术展示大赛

录取率4.2%｜西湖大学人工智能暑期公开课，没抢到的看过来

西湖大学国际力学生物学研讨会开放注册

Yungu Lectureship第八期精彩回顾 | 生物医学纳米技术——影像引导和机器人手术的新机遇

欧洲计算机视觉国际会议ECCV 2024收录西湖大学工学院最新成果

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉