Z科技｜入选ECCV 2024！浙江大学联合微软亚洲研究院提出统一医学图像预训练框架UniMedI，打破医学数据异构化藩篱

学术 2024-10-26 23:27 浙江

藕舫天使Ofound 专注服务、投资浙大系创业者

浙大人物

胡浩基浙江大学信息与电子工程学院副教授、博导

2009 年12月加入浙江大学信息与电子工程学院。2002 年清华大学电子工程系专业本科毕业，2007年英国南安普敦大学电子与计算机工程系博士毕业。目前主要研究方向为计算机视觉、机器学习、深度网络模型压缩和加速等。在国际顶级期刊和会议上发表论文50多篇，包括TIP, PR, AAAI, CVPR等（‪Haoji Hu‬ - ‪Google 学术搜索‬），主持多项国家和省级科研项目。他的机器学习视频课程在BILIBILI网站上获得超过15万点击量。

浙江大学联合微软亚洲研究院提出了一种全新的统一医学图像预训练框架 UniMedI。它利用诊断报告作为公共语义空间，可为不同模态的医学图像创建统一的表示，成功整合了 2D 和 3D 图像，使复杂的医学数据被更好地利用。

让 AI 在某些条件下具备类似人类的反应能力，从而代替人类高效地从事特定工作，是 AI 领域研究人员孜孜不倦的追求。正如在医学图像和人工智能的交叉领域，基于视觉语言预训练的深度模型 (Visual-Language Pre-training, VLP) 凭借其自动化的特点，可以在大量图像及对应文本的数据集上进行预训练，并学会自动从新的图像中提取相关特征，可高效地解决费时费力的人工注释需求。

然而，尽管 VLP 在医疗领域已经取得了一定程度的成功，但在进一步扩大其应用的数据规模时，仍然面临着诸多挑战。

首先，现有模型训练大多主要以单模态数据（主要是 2D 图像，如 X 光片）为主，这与包含多模态图像（包含 2D 和 3D 图像，如 CT、MRI 图像等）的真实医学场景并不相符；其次，不同模态的医学图像固有的异质性也阻碍了它们的有效协作和整合。此外，医学图像不同模态的数据还存在维度差异、缺乏成对数据等。因此，如何构建一个统一的模型，并将这些不同模态的数据有效映射至共同空间，实现联合学习，成为了一个极具挑战性的课题。

为了解决上述问题，浙江大学胡浩基团队联合微软亚洲研究院邱锂力团队提出了一种全新的统一医学图像预训练框架 UniMedI。它利用诊断报告作为公共语义空间，可为不同模态的医学图像创建统一的表示，此外，它还引入创建「伪配对」 (Pseudo-Pairs) 的技术，在文本的指导下，UniMedI 能够从复杂的 3D 图像中选择与该文本相关的 2D 切片，这些切片充当桥接 2D 和 3D 数据的伪对，可增强各种医学成像模式之间的一致性，有效整合医学多模态图像。

相关研究成果以「Unified Medical Image Pre-training in Language-Guided Common Semantic Space」为题，收录于计算机视觉和机器学习领域的顶会 ECCV 2024。

研究亮点：

* 在实验中，UniMedI 在多个不同数据集上的 2D 和 3D 图像上的性能表现优异，在广泛的医学任务，如图像分类、分割和检索方面表现卓越

* UniMedI 可以统一采集 2D 和 3D 图像，解决了医学领域的数据稀缺问题

论文地址：
https://eccv.ecva.net/virtual/2024/poster/1165

真实医学数据，有效验证框架

预训练 UniMedI 框架所使用的数据来自 JPG 版本的 2D X 光片数据集 MIMIC-CXR 2.0.0 和 3D CT 扫描数据集 BIMCV。

其中，研究人员对 2D 数据集进行了预处理，消除了所有侧面图像，以便与仅使用正面图像的下游任务对齐。同时，为保持数据集的完整性，实验中未使用少于 3 句话的 2D 和 3D 数据集简短报告。

图像方面，2D 图像的大小为 224 × 224，3D 图像大小为 128 × 128 × 32。

研究团队在 8 个 Tesla V100 GPU 上对 UniMedI 框架进行了 50 次预训练，batch 大小为 144。

在实验评估中，首先团队对 2D 和 3D 数据集进行了医学图像分类，其中具有代表性的 2D 数据集有 3 个，分别是：CheXpert，包含 191,229 张正视图胸片；包含约 29,700 张正视图胸片的 RSNA 肺炎 stage 2 版本；来自 2,800 多名患者的 16,490 张阳性 COVID-19 图像。

然后团队对两个代表性的 3D 数据集进行了分类，分别是 CC-CCII 和 LUNA 16。其中，CC-CCII 使用了 Clean-CC-CCII 版本，该版本包含来自 2,698 例患者的 3,993 次扫描的 340,190 个切片；基于 LIDC-IDRI 建立的 LUNA 16，包含 888 个 CT 扫描，带有注释。实验删除了 LIDC-IDRI 数据库中切片厚度大于 3mm 的 CT 扫描。

层层协作机制，打破数据藩篱

本研究提出的 UniMedI 是一个视觉语言预训练框架，医学图像及其文本报告分别由视觉编码器 (Vision Encoder) 和文本编码器 (Text Encoder) 两个编码器进行编码，然后通过 VL (Vision-Language) 对比学习共同学习。UniMedI 的独特之处在于它可以用统一的方式有效地采集 2D 和 3D 图像，解决医疗领域的数据稀缺问题。UniMedI 总体框架如下图左边所示：

UniMedI 总体框架：左边为整体流程，右边为关键设计

实验中，视觉编码器采用的是 ViT-B/16，主要在 2D 和 3D 视觉数据的公共特征空间中提取表示，文本编码器使用的是 BioClinicalBERT，用来对文本特征进行编码，视觉编码器和文本编码器在 2D 和 3D 数据中是通用的。

为了克服不存在配对 2D 和 3D 图像数据的挑战。研究团队在 UniMedI 中引入创建「伪配对」的方法，该方法的设计基于一种新颖的以语言为指导的注意力切片选择策略。

比如，当输入为一个 3D 图像时，从其中提取与报告最相关的一部分 2D 切片，然后将选定的切片视为 2D 图像，从而形成 2D-3D 图像的伪配对关系。在此之后，通过将选定的 2D 切片与原始 3D 图像一起输入到网络中，可共同学习它们与报告 (Report) 之间的关系，最终形成一个统一的特征空间。当输入为 2D 图像时，则省略了切片选择处理。

之后，一个视觉编码器将所有多模态图像（包括原始 2D 和 3D 图像以及所选择的 2D 切片）映射到表示空间中。该视觉编码器分别拥有用于 2D 和 3D 图像的标记器 T₂D 和 T₃D，以及用于实现更好集成的共享骨干 E_v。通过对比学习损失 Lᵥₗ，在一个 VLP 中端到端学习包含视觉编码器和文本编码器 Eₗ 的模型。在这个过程中，2D 和 3D 图像都可以被编码到由报告中语言信息监督的公共语义空间中。

为了充分利用医学图像本身多模态数据，以及共享的一些公共信息，本研究中还引入了一个辅助任务设计，即掩蔽和恢复，并使用自蒸馏方法来完成任务。这使得 2D 和 3D 图像的 token 可以互相通信，并增强跨维度的交互和多模态图像的集成。

值得注意的是，UniMedI 的一大亮点是注意力切片选择策略和 VL 对比学习的协同效应。

* 一方面，VL 对比学习可以实现语言监督，这种监督直接应用于视觉 CLS token。该 token 在报告中包含重要信息，因此视觉 CLS token 的注意权重作为 2D 切片选择的基础，才会携带来自报告的监督信息，并与 3D 特征一起构建联合特征空间。

* 另一方面，细致的切片选择使 2D 和 3D 特征空间更加整合，即便是没有配对数据。这种共同空间可以放大医学图像和报告之间的详细信息，并且通过这种方式，推动了图像和报告之间的对齐。这两种设计使得多模态图像的表征结合在一起，并使其同时接近报告表征空间，在构建共同语义空间上达到了一加一大于二的效果。

多角度实验评估，性能赶超 UniMiss

为了对 UniMedI 进行全面有效的评估，本研究设置了多角度观察，并通过与各种医学 VLP 方法进行比较分析，进而验证其性能和有效性。

首先，研究团队将 UniMedI 与包括 ConVIRT、GLoRIA、MGCA、LOVT、PRIOR 等在内的方法进行了比较，后者是针对 X 光片及其相应的医学报告量身定制的；然后，研究团队又将 UniMedI 与几种 2D 和 3D 联合学习的方法进行比较，包括 UniMiss 和 Joint。

线性分类实验结果显示，在 2D 医学图像分类实验结果中（如下图示），相比使用 ViT 作为视觉编码器的最先进 MGCA (ViT-b/16) 方法，UniMedI 在不同训练数据下 (1%，10%，100%) 的 3 种 2D 医学图像分类中表现最好。

* 线性分类实验：用来评估 UniMedI 的表征能力

与其相比，UniMedI 在 CheXpert 数据集上的 AUROC 分别提高 +0.6%、+0.6% 和 +0.8%；在 RSNA 数据集上的 AUROC 分别提高 +0.9%、+0.5% 和 +0.7%；在 COVID 数据集上的 AUROC 分别提高 +5.5%、+7.6% 和 +2.3%。实验结果表明了所提算法的有效性。

1%、10%、100% 训练数据下在 CheXpert、RSNA 和 COVID 数据集上的 2D 线性分类结果

在 3D 医学图像分类实验结果中（如下图示），与最先进的 UniMiss 对比，UniMedI 在 CC-CCII 数据集上分别提升了 +22.6%、+2.0% 和 +0.8% 的 ACC 增益。这些数据均验证了 UniMedI 的数据效率和有效性。

1%、10%、100% 训练数据下在 CC-CCII 上的 3D 线性分类结果

与此同时，当使用完整的训练数据对全视觉编码器进行微调时，UniMedI 在 CC-CCII 和 LUNA 多个 3D 医学图像数据集上的性能均优于其他方法。

如下图所示，UniMedI 在 CC-CCII 数据集上的 ACC 值为 93.8%，在 LUNA2016-v2 数据集上的 ACC 值为 95.9%。这显示其在 2D 和 3D 医学图像分类任务上的显著泛化能力，表明该框架具有提取三维 CT 图像通用特征的能力。

完整训练数据的 CC-CCII 和 RICORD 数据集上的 3D 微调结果

医学语义分割实验结果显示，在 2D 医学语义分割结果中，UniMedI 明显优于当前最先进的 MGCA 算法，当使用 1% 的训练数据时，UniMedI 达到了 67.8% 的 Dice。在 3D 医学语义分割结果中，UniMedI 在 BCV 数据集上与 UniMiss 相比，当有限标签可用性为 40% 和 100% 时，精度分别比 UniMiss 提高了 0.6% 和 0.4%，如下图所示。

* 医学语义分割实验：用来评估分割性能，使用 RSNA 肺炎正视图胸片，和 BCV 数据集（包括 50 张 CT 扫描）。

这些结果验证了 UniMedI 在提取有意义的特征和有效利用有限注释数据方面具有强大的优越性，证明了其在利用局部表示进行语义分割任务时具备更高的熟练程度。

科技助力，加深 VLP 与医学图像的羁绊

视觉语言预训练模型正在成为连接计算机视觉和自然语言处理的重要桥梁，尤其是在医学图像领域，通过大规模的视觉和语言数据进行预训练，它们能够轻松捕获复杂医学图像与文本之间的复杂关系，进而辅助医生进行图像诊断，帮助企业进行药物研发，亦或者实现智能的医学图像管理。

本次研究得以入选国际顶会，也从另一方面再次佐证了在人工智能与医学图像的交叉领域，VLP 所蕴藏着的巨大想象空间。实际上，除了浙江大学与微软亚洲研究院两大团队本次强强联手外，已经有不少实验室针对这一领域进行了攻坚。

比如上述研究中所提到的先进方法之一的 UniMiss，其相关成果早在 2022 年就由澳大利亚阿德莱德大学和西北工业大学计算机学院的团队，以题为「UniMiss : Universal Medical Self-Supervised Learning via Breaking Dimensionality Barrier」刊登在当年的 ECCV。

论文地址：
https://dl.acm.org/doi/abs/10.1007/978-3-031-19803-8_33

在这篇研究中，作者主张利用大量的 2D 图像来弥补 3D 数据的不足，旨在建立一个通用的医学自我监督表达学习框架，并命名为 UniMiss。实验结果显示，相比 ImageNet 预训练和其他高级 SSL (self-Supervised learning) 对手，UniMiss 展示出了极大的优势，在 2D/3D 医学图像分析任务中，无论是分割还是分类，其结果均能够人满意。

不仅如此，在今年的 7 月份，该团队又针对 UniMiss 进行了新一轮研究，并提出了 UniMiss+。目前，相关成果以题为「UniMiSS+: Universal Medical Self-Supervised Learning From Cross-Dimensional Unpaired Data」收录于知名国际期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence 上。

论文地址：
https://ieeexplore.ieee.org/document/10617802

在最新的研究中，该团队在 UniMiss+ 中引入了数字重建 X 光片技术，用来模拟 CT 扫描的 X 光片图像，以便访问配对的 CT 和 X 光图像数据。相比上一代 UniMiss 得到了巨大改进。

总而言之，融合人工智能与医学图像的相关科研仍旧在火热进行，假以时日，这些成果也必将转化为应用，落地到真实的医学场景中去，成为造福医务工作人员、患者、企业的新工具。

文章来源：HyperAI超神经

往期回顾

Z动态｜一家融了15轮的成都公司，要被浙大系半导体并购了
Z科技｜有望用于清洁能源气体储存，浙大团队提出高孔性金属有机框架合成新策略
Z科技｜入选NeurIPS 24，浙大团队提出全新去噪蛋白质语言模型DePLM，突变效应预测优于SOTA模型

使命：帮助有情怀的浙大人做有意义的事

愿景：以“藕”链接浙大校友，以“舫”承载求是情怀

价值观：求是本分

藕舫天使专注于服务、投资浙江大学校友师生创业的项目，致力于支持浙大校友成为“公忠坚毅，能担当大任，主持风会，转移国运”的商业领袖。

藕舫团队已经参与投资了100多家浙大校友创业企业：

科技领域：可胜技术、长光辰芯、棒糖科技、糖吉医疗、形色、票小秘、帕拉卡、码全信息、深视科技、双深信息、多翼科技、睿维视科技、地卫二空间技术、视光半导体、青塔科技、傲芯科技、玩点旅行、一目可视、超光微、速智通科技、再造再生；

智能制造领域：拓烯科技、三相科技、励贝液压、英创新材料、喜马拉雅科技、海川电气、晶宝新能源等。

—— Angel For ZJU

http://mp.weixin.qq.com/s?__biz=MjM5NjIwMjY2Nw==&mid=2247526250&idx=1&sn=318b75c764a5a59807b2953c04a7f250

浙大校友创业观察

研究浙大校友创业现象关注浙大校友创业人物服务浙大校友创业生态

最新文章

Z动态 | Meta之后，Rokid也被同一家全球眼镜巨头看上了

Z动态｜喜报！全国第三，浙江大学四人上榜，第十八届中国青年科技奖公示

Z动态｜从白牌到全球品牌，浙大“兄弟”如何靠平价精品炼成骑行界迪卡侬？

Z动态｜阿曼国首颗人造卫星发射，『地卫二』在“空天信息”领域驶入国际化轨道

Z动态｜浙大校友企业『千寻智能』完成天使+轮融资，驶入商业化落地快车道

喜报｜藕舫投资企业『三相科技』领衔制定首项国标打破高端数控机床进口电机垄断

Z榜单｜亚洲大学排名出炉，浙江大学位列亚洲第八

Z动态｜浙大系潜伏了一家四足机器人头部企业，正在进军人形机器人领域

活动报名 | 求是AI圆桌第五期：AI效率工具的机遇与挑战

Z观点｜禾迈何以开启微逆大时代？——《高端说》对话禾迈股份总经理杨波

Z动态｜让杂交水稻制种“智能化”！他们为保障国家粮食安全勇闯“创业无人区”

Z动态｜「深度原理」完成种子++轮融资，祥峰独家投资，AI解锁新型化学反应和材料

求是直聘 | 校友企业招募HRD、财务总监、品宣总监、销售副总等核心职位

Z动态｜浙大校友企业『星海图』完成超2亿元Pre-A轮融资

Z人物｜用特殊的巧克力做关键材料，曾保送浙大的他花9年时间做可以吃的3D打印

Z观点｜AI+园艺如何破圈，这位开发了花信App的浙大校友这样说——

Z人物｜高考没考好却进了浙大，喜欢游泳的湖州男孩用AR让游泳眼镜进入next level

Z动态｜浙大校友企业『创视半导体』完成A轮数亿元融资

Z动态｜Cyan青心意创震撼发布“全面拟人”机器人Orca Ⅰ，机器人开始懂情感、有温度

Z动态｜小马智行开启美股IPO！累计营收12亿，自动驾驶已绕地球1000圈

Z观点｜前Postmates AI总监和阿里小蛮驴负责人，致力于通过AI技术打造数字员工新时代

Z科技｜浙江大学AFM：多组织自适应止血海绵

Z科技｜入选ECCV 2024！浙江大学联合微软亚洲研究院提出统一医学图像预训练框架UniMedI，打破医学数据异构化藩篱

Z动态｜一家融了15轮的成都公司，要被浙大系半导体并购了

Z科技｜有望用于清洁能源气体储存，浙大团队提出高孔性金属有机框架合成新策略

Z科技｜入选NeurIPS 24，浙大团队提出全新去噪蛋白质语言模型DePLM，突变效应预测优于SOTA模型

Z观点｜深度对话：白惠源“EPOCH”理论预言AI Agent的未来五部曲

Z科技｜让普通人也能当“作曲家”，浙大研究人员探索音乐艺术创作和心理治疗新方法

Z动态｜『地卫二』太空计算赋能星上能源：千帆星座18颗星入轨

Z动态｜浙大系杀出“智慧农业”概念第一股，开盘大涨800%！

求是TALK｜科创企业家创业心法

Z动态｜浙大系人工智能风险治理专家『君同未来』完成数千万元天使轮融资

求是直聘 | 需要大模型、CTO、HRD、品牌公关、研发等人才的企业看过来

Z动态｜浙大联合阿里推出人脸隐私保护新方案！

Z动态｜高瓴独家投了一个种子轮项目，是浙大校友企业

Z科技｜对话非夕科技：让机器人像人手一样灵敏，浙大校友企业另辟蹊径造出通用机器人独角兽

Z人物｜浙大校友从文艺青年到爆品专家的进化之路

Z人物｜重磅！国药控股董事长、总裁人选最终敲定！出自浙大系，原华润三九总裁

Z科技｜浙大校友参与设计新型蛋白质，实现蛋白靶向降解，已创立AI制药公司获10亿元美元投资

Z人物｜这位接任飞利浦大中华区总裁的女帅，是浙大学姐

Z动态｜七牛云通过港交所聆讯，阿里、经纬、启明等明星资本加持，中国第三大音视频PaaS服务商

Z科技｜浙大蒋超组合作《自然·通讯》：揭示ICU患者下呼吸道微生物基因组功能动态及其在感染防控中的潜在应用

Z科技｜浙江大学最新综述，揭秘大语言模型中知识的利用机制

Z科技｜浙大郑强教授/杜淼教授在JES期刊上发表：利用锆掺杂NiCoZr层状氢氧化物开发高性能的超级电容器电极材料

Z科技｜浙江大学新晋「国家杰青」，专注生物医用高分子材料与药物递送！

Z科技｜浙大团队开发低贵金属载量的双功能催化剂，运行100小时性能无明显下降，可降低质子交换膜电解水制氢成本

Z人物 | 保研浙大，哈佛毕业，ex-Googler创业智能眼镜，超越Ray-Ban Meta登顶亚马逊品类畅销榜

Z科技 | 浙大毛峥伟课题组：基于超分子相互作用的纳米武装益生菌用于疾病治疗

Z科技｜浙大吴丹教授团队《自然·通讯》：人类认知能力基本维度的神经生物学基础

Z科技 | 浙大研究团队设计新款软体机器人：最高弹跳超过自身身高100倍，响应仅数十毫秒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉