人类病理学的多模态生成人工智能副驾驶
A Multimodal Generative AI Copilot for Human Pathology
Copilot:副驾驶的意思
发表日期:2024.05.28
期刊:NATURE
期刊IF:50.5
分区情况:JCR 1 TOP 区,中科院1区
Abstract
目的:计算病理学领域[1,2]在特定任务预测模型和任务不可知的自监督视觉编码器的发展方面取得了显著进展[3,4]。然而,尽管生成式人工智能(AI)爆炸式增长,但针对病理学构建通用的、多模式的AI助手和副驾驶[5]的研究有限。
方法:在这里,我们介绍了PathChat,一个视觉语言通才的人类病理学人工智能助手。我们通过适应病理学的基础视觉编码器来构建PathChat,将其与预训练的大型语言模型相结合,并在超过456,000种不同的视觉语言指令上对整个系统进行微调,这些指令由999,202个问答回合组成。
结果:我们将PathChat与几种多模态视觉语言AI助手和GPT4V进行比较,GPT4V为商用多模态通用AI助手ChatGPT-4提供动力[7]。PathChat在来自不同组织来源和疾病模型的病例的多项选择诊断问题上取得了最佳表现。此外,使用开放式问题和人类专家评估,我们发现PathChat总体上对与病理相关的各种查询产生了更准确和更适合病理学家的回答。
结论:作为一款可以灵活处理视觉和自然语言输入的交互式通用视觉语言人工智能副驾驶,PathChat可能会在病理学教育、研究和人在循环的临床决策中找到有影响力的应用。
目前大模型研究如火如荼,正对大模型,结合视觉和语言的研究更加是热点。
大概看了摘要,这篇文章做了3个工作:1、PathChat在很多来自不同组织来源和疾病模型的病例都做了实验2、并且和其他多模态视觉语言AI助手和GPT4V进行比较
Introduction
第①段:AI病理取得了很多进步,尤其是大的通用模型现在是研究热点。
第②段:视觉和语言模型,值得在病理上经行尝试。
第③段:随着大型语言模型(llm)的兴起,多模态大型语言模型(mllm)和更广泛的生成式人工智能领域的快速发展,将为计算病理学开辟一个新的前沿,该领域强调自然语言和人类交互是人工智能模型设计和用户体验的关键组成部分。一个准确的、按需互动的人工智能伴侣可以帮助民主化获得专家级别的病理学指导和培训,从而缩小医疗保健提供方面的地区差距。
第④段:我们开发了PathChat,这是一种用于人类病理学的多模态生成AI副驾驶,由自定义、微调的多模态大语言模型(MLLM)提供支持。为了构建一个可以对视觉和自然语言输入进行推理的mlm,我们从UNI[3]开始,UNI是一种最先进的(SOTA)视觉编码器,使用自监督学习对来自超过10万张幻灯片的超过1亿个组织学图像块进行预训练。使用118万对病理图像标题对UNI编码器进行语言预训练,使其图像表示空间与病理文本表示空间对齐。
第⑤段:我们将PathChat与最先进的(SOTA)通用领域开源MLLM LLaVA[5]以及针对生物医学领域量身定制的LLaVA- med[53]进行了比较。我们还与SOTA的商业解决方案ChatGPT-4(由GPT4V供电)进行了比较,尽管我们的模型明显更小,服务成本更低。
如下图所示,我们看看他们是如何提问的:
3 Results
多项选择诊断题的表现
一名委员会认证的病理学家从TCGA和我们内部病理学档案(这两份档案完全不涉及模型预训练或微调)的常规H&E诊断全幻灯片图像(wsi)中手动选择显著感兴趣区域(roi)。总的来说,这些问题涵盖了来自11种不同的主要病理实践和器官部位的54种诊断。对于每个器官系统,病理学家选择了一组10种可能的答案,包括该器官系统内所有问题的正确答案以及该器官系统内其他相对常见的诊断。
我们观察到,虽然GPT4V在提供临床背景时比开源MLLM更准确,但我们的领域特定的PathChat MLLM在两种评估设置中都一贯更好(90.5% vs. GPT4V在提供临床背景时的63.5%,+26.9%;78.8% vs. GPT4V图像25%,+53.8%;P < 0.001)。虽然这种差异的部分原因可能是GPT4V的护栏,但为了进行更全面和透明的评估,我们还报告了仅在GPT4V成功回答的问题子集上的表现(补充数据表11),并发现PathChat在47个具有临床背景的问题上仍然持续优于GPT4V (+21.3%, p = 0.003);+32.2%, p = 0.014。
开放式问答的表现
除了多项选择诊断问题外,评估PathChat和其他mllm对开放式病理相关询问产生连贯、合理和临床相关回答的能力也很有价值(见方法中专家设计的病理问答基准部分)。基于来自PathQABenchPublic的病例,一位委员会认证的解剖病理学家精心策划了针对广泛主题的开放式问题,包括显微图像描述、组织学分级和分化状态、风险因素、预后、治疗、诊断、免疫组化(IHC)测试、分子改变和其他进一步测试。
PathChat在病理学家能够达成共识的开放式问题子集上的总体准确率为78.7%(图3c,补充数据表14),与亚军GPT4V的52.3%的准确率相比,这相当于26.4%的提高(p < 0.001)。与公开可用的通用MLLM LLaVA 1.5(准确率为29.8%)和生物医学专业MLLM LLaVA- med(准确率为30.6%)相比,改进幅度更大,分别为+48.9%和+48.1%(两者的p < 0.001)。
PathChat在不同用例上的演示
除了在多项选择题和开放式问答中评估PathChat之外,我们还试图概念化和探索PathChat作为专门用于病理学的人工智能副驾驶的潜在用例。
4 Discussion
第①段:计算病理学领域在基于图像和/或基因组学数据开发越来越准确、任务特定的预测模型方面取得了实质性进展。以ChatGPT等为例,生成式人工智能技术,特别是mllm的爆炸式增长,开始为计算病理学研究和病理临床实践的实际应用开辟了一个可能的新领域。在病理学领域,这样的模型理论上可以应用于广泛的教育和研究场景,以及人在循环的临床决策
第②段:在这项工作中,我们为构建适合人类病理的人工智能副驾驶提供了概念验证。据我们所知,我们还通过将我们的模型PathChat与通用机器学习和更大的生物医学科学领域开发的公开模型以及SOTA商业解决方案GPT4V进行比较,对计算病理学领域的此类技术进行了最广泛的评估。
第③段:使用诸如基于人类反馈的强化学习(RLHF)[45]等技术进一步与人类意图保持一致,可能会降低基于mllm的人工智能助理模型中的幻觉,并帮助它们捕捉特定于病理学实践的某些细微差别。
第④段:未来的研究可能会进一步增强PathChat和基于mllm的人工智能助手的能力,增加对输入整个十亿像素WSI或多个WSI的支持。这可以通过提供有价值的背景来扩展它们在诊断具有挑战性和边缘性实体方面的用途,而不是预先选择的、具有代表性的ROI。
点评:本文总结了计算病理学领域的最新进展,特别是探讨了生成式人工智能(如ChatGPT等MLLM)在病理学中的应用潜力。文章介绍了一种名为PathChat的概念验证模型,旨在作为病理学的AI副驾驶,通过自然语言理解执行多种任务,如诊断、分类、建议检测等。通过创建PathQABBench基准测试,PathChat在多项评估和对比中表现出色,优于当前商业解决方案GPT4V及公开可用的MLLM模型,展示了其在病理学教育和临床决策中的潜在应用价值。
文章还讨论了进一步改进PathChat的必要性,包括减少模型幻觉、捕捉病理学实践中的细微差别、处理无效查询等,以确保模型的准确性和可靠性。未来研究将探索增强PathChat处理高分辨率全视野图像(WSI)的能力,以扩展其在复杂和边缘病例诊断中的应用。总体而言,文章展示了生成式AI在计算病理学中的新兴角色,并展望了其在实际临床和教育中的广泛应用前景!
人工智能大模型相关概念积累
Pepper soup transformed by: Zheng TianLei
//
深度学习辣汤AI小组由徐州医科大学以及徐州医科大学附属医院一群热爱人工智能的小伙伴们组成,欢迎大家跟我们交流学习!
扫码关注我们
欢迎加入我们!
成员微信号:cy2011mcu
添加好友时请备注:
您的 单位-科室-姓名-研究方向