在现代医学中,病理学是诊断和理解疾病不可或缺的基础,近年来随着数字病理学的发展和人工智能技术的崛起,病理学领域经历了巨大的变革。相比传统病理模型通常只针对特定任务进行优化,新兴的大型多模态模型(LMM)展现出了处理广泛任务的能力,极大地推动了对病理区域全面识别的实现。然而,当前仍缺乏专业的大规模病理测试集来全面评估这些多模态模型在病理图像理解和推理方面的性能。
为此,研究团队构建了一个庞大的多模态病理基准数据集PathMMU,这是迄今为止最大规模的病理学基准数据集。其测试集部分由七位专业病理医生进行严格标注,以确保测试集和验证集符合严格的标准,并对人类病理医生以考试的形式进行盲测,设定人类专家的性能基准,以评估参与PathMMU考试的病理学家们的表现。此外,研究者对14个开源及4个闭源的大型多模态模型进行了广泛评估。实验结果表明,这些模型在病理图像理解能力上普遍表现不佳,存在通过走捷径不依赖图像进行猜题的问题,与人类专家的表现还存在显著差距。因此,将现有多模态大模型应用于临床的仍然存在明显局限性。
该论文被计算机视觉顶级会议ECCV 2024录用,并入选口头报告(Oral,接受率约为2.3%)。论文由杨林实验室博士生孙宇轩担任第一作者,杨林教授、林涛教授为共同通讯作者,西湖大学为通讯单位。
ECCV会议是计算机视觉三大顶级会议之一,录用论文代表了计算机视觉领域2024年最高的学术水平。2024年会议接收有效投稿8585篇,论文录取率为27.9%,其中口头报告比例约为2.3%。会议定于2024年9月29日至10月4日在意大利米兰举行。
全面专业的数据:数据集来源于病理专业文章、病理图谱、教学视频、社交平台医生分享的图像等,并由七位病理专家审核,确保专业性。有效且有价值的问题:问题设计要求基于图像详细观察,符合病理考试标准,确保问题有效、可回答。大规模:PathMMU仅验证测试集就包含超过一万条图像-问题对,是当前最大病理数据集,助力探索LMMs在病理学中的潜力。高质量图像:图像清晰度高,平均分辨率约为900 × 700像素,确保细节可见。可解释答案:每个答案附有解释,增强模型的可解释性,支持相关研究。
图2. PathMMU 多模态问答生成的流程示意图PathMMU数据集来源广泛,并整合为多个子集:PubMed、EduContent、Atlas、SocialPath和PathCLS。通过病理专家的人工审核和筛选,确保了超过 30,000对高质量病理图像-文本对,这些配对构成 PathMMU的基础。由于部分图像与说明相关性较弱(如来自于社交平台收集的SocialPath子集),我们使用 GPT-4V 辅助生成更为详细的细胞和组织描述,同时要求GPT-4V参考病理专家提供的原始描述,以减少幻觉等描述的不准确可能,确保描述的专业性和相关性。在生成图像描述后,GPT-4V 为每张图像生成三个多项选择问题,并由多个 LLM 验证排除可以通过纯文本猜对的问题,以确保PathMMU针对模型多模态能力的评估能力。最后,七位病理专家对PathMMU验证测试集部分约12,000个题目进行人工审核,按照以下标准评估:(1) 是否能在没有图像的情况下回答问题;(2) 是否可以从提供的问题和图像中推断出答案;(3) 答案是否错误、没有正确答案或存在多个正确答案;(4) 生成的问题是否与标准病理考试不符。不符合以上任意一点的问题将被视为无效并移除,确保数据集的准确性和专业性。
多模态大模型的零样本评估
先进的多模态大模型在PathMMU数据集上表现不佳,18个模型中有15个准确率低于40%,表现最好的GPT-4V仅49.8%,显著低于病理专家的71.8%。闭源纯文本大模型在不提供图像时的表现与开源多模态模型相当甚至更好,GPT-4 Turbo、Vicuna-v1.5-13B、GeminiPro和ERNIE-Bot 4.0表现超过半数开源 LMM,显示出强大的通过逻辑推理来“蒙题”的能力。较大的LMM表现更优,如LLaVa-1.5-13B比LLaVa-1.5-7B高2.2%,InstructBLIP-FLAN-T5-XXL 和 BLIP-2 FLAN-T5 XXL分别比小版本高2.1%和 1.7%,表明较大模型在病理学中具备更强的多模态能力。多模态大模型鲁棒性测试
在实际病理学中,模型的解读直接影响医疗决策,因而强鲁棒性的模型对临床应用至关重要。病理切片的质量会受到染色、扫描和存储等因素影响,如JPEG压缩、像素化、模糊(如气泡、失焦、运动模糊)及颜色变化(亮度、饱和度、色调)。我们将这些仿真损坏应用于病理图像,以测试 LMM 的鲁棒性,评估其在实际临床环境中的稳定性和可靠性。图4. 模型在 PathMMU 测试集(test-tiny)上的鲁棒性评估图5. LMM 在 PathMMU 测试集上,用随机高斯噪声图像替换原始图像的结果LMMs在应对图像损坏时表现出一定的鲁棒性,但其真实性能存疑。例如,如图4所示,Qwen-VL-7B 在图像损坏情况下的表现比基线提高了0.6%。我们推测,这些损坏主要影响病理图像中的细微特征,如染色质形态和细胞质空泡化,而这些细节 LMMs 难以辨识,因为它们在通用领域训练时更关注大而显著的特征。此外,LMMs 可能利用虚假相关,以文本模式回答问题,削弱了其在病理学中的可靠性。为验证观点,我们进行了极端测试,将图像替换为高斯噪声。如图5所示,即便图像不包含相关信息,LMMs 仍优于随机选择,性能下降仅为1.0%至4.5%。这表明 LMMs可能依赖文本信息进行预测。此外,不同尺寸模型的性能下降相似,表明图像贡献一致,模型提升主要源于语言组件而非视觉部分。对LMM通过纯文本猜测题目答案的思考
图6. 左图:LLMs 与人类专家在100个可文本猜测样本上的表现对比。右图:LLMs的猜题能力分析为了展示LLMs的猜测能力,我们随机选取了100个在Q&A生成中被过滤且可被多种LLMs正确猜出的样本,并邀请病理专家参考图像回答。如图6左图展示,即使有图像参考,专家表现明显低于闭源 LLMs。这表明 LLMs 可能通过识别问题中的捷径超越人类。我们推测LLMs的猜题行为源于:(1)选项在病理临床场景中的出现频率;(2)选项呈现一正三反;(3)选择与题目对象病理特征最相近的选项。为了验证我们的假设,我们在这些样本中交换问题,但保持选项不变,创建出问题与选项完全不匹配的样本。图6右显示,LLMs仍能猜对约50%的样本,显著高于随机水平,表明模型倾向于选择最常见或最显著的选项作为答案,支持假设(1)和(2)。为进一步探究假设(3),我们使用 BERT-large 和 BiomedBERT-large的 Next-Sentence Prediction (NSP) 机制评估问题与选项关系,以深入分析模型的行为, 通过预测问题和选项之间的关系,选择最可能为正确答案的选项。 结果显示,这两个模型的表现仍然显著优于随机猜测,证明直接匹配问题和选项是模型猜对答案的可行方法,支持假设 (3)。此外,BiomedBERT-large 比 BERT-large 的表现更优,表明在生物医学数据上的预训练使模型具备更广泛的病理学知识理解。
本研究介绍了PathMMU,这是目前最大且最高质量的病理学基准数据集,专为评估LMMs在病理图像解释与推理能力而设计。PathMMU通过严谨的数据收集与筛选,并由七位病理学专家严格审核,以确保数据的质量和专业性。同时,我们建立了人类专家基准,以量化LMMs与专家之间的差距。结果显示,先进的LMMs在PathMMU上表现不佳,难以识别病理图像细节,甚至忽视视觉信息,凸显实际应用中的差距。PathMMU的经验表明,LMMs需关注以下领域:
(1) 当前LMMs过于依赖文本,忽视视觉信息,需探索更好融合视觉与文本的方法。
(2) LMMs常走捷径解决问题,需开发更可信的模型以满足临床需求。
(3) 多数LMMs不支持多图像输入,而病理学家通常从不同位置和倍率观察病理全场图的区域图像分析样本,这凸显了开发支持多图像输入模型的重要性。我们相信PathMMU将推动病理学LMMs的新一代发展。
来 源 | 杨林实验室
撰 稿 | 孙宇轩
编 辑 | 冯晨希
校 对 | 彭 玥
审 核 | 苏凌菲
西湖大学工学院面向国家战略性新兴产业发展重大需求,着力建设交叉学科与新兴学科为特色的工程技术学科群,努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。工学院以国际高端人才为学科带头人构建科研团队,分阶段、分领域打造一流人才队伍。
工学院目前重点建设七大研究领域 (Programs)——人工智能与数据科学、生物医学工程、化学与生物工程、电子信息科学与技术、材料科学与工程、机械科学与工程、可持续发展与环境工程。围绕七大领域,工学院已建成一批高水平实验室和研究中心,其中已获批成立全省3D微纳加工和表征研究重点实验室、全省智能低碳生物合成重点实验室,培育建设浙江省海岸带环境与资源研究重点实验室,建立微纳光电系统集成浙江省工程研究中心。
扫描二维码 | 关注我们
西湖大学工学院
School of Engineering
Westlake University