图像解码器；多头混合专家网络；视觉模型美学对齐；医学视觉任务适应基准

科技科技 2024-07-30 17:06 北京

（本文阅读时间：10分钟）

编者按：欢迎阅读“科研上新”栏目！“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里，你可以快速浏览研究院的亮点资讯，保持对前沿领域的敏锐嗅觉，同时也能找到先进实用的开源工具。

「本期内容速览」

MedVTAB：大规模医学视觉任务适应基准

对齐视觉模型与人类美学：算法与评估

GLC：基于生成式特征编码的极低码率图像编解码器

MH-MoE：多头混合专家网络

MedVTAB：大规模医学视觉任务适应基准

论文链接：

https://arxiv.org/abs/2404.12876

近年来，深度学习的显著进步极大地推动了计算机视觉领域的发展，尤其是视觉 Transformer（ViT）的引入。经过大规模数据集预训练后，这些模型在各种视觉任务上表现出了卓越的性能。通过引入专门的可学习层或标记，ViT 在特定下游任务中的适应性（称为视觉任务适应性）为任务特定模型的优化开辟了新的途径。这种适应性允许对预训练模型进行微调，以适应特定任务的细微差别，从而提升模型的性能和适用性。

尽管这些进步显著，但视觉任务适应性在医学领域的应用仍未得到充分探索，特别是在多种医学影像模态（如彩色图像、X 光片和 CT 扫描）中的应用。医学影像领域面临着独特的挑战，包括数据的异质性、对高精度的迫切需求以及模型在不同器官和疾病之间的泛化能力。此外，视觉任务适应性在系统和大规模方式下利用医学和非医学领域的现有知识的潜力尚未得到充分研究。

为填补这一空白，研究员们引入了一个综合性的医学视觉任务适应性基准数据集 Med-VTAB，希望促进视觉任务适应性技术在医学影像领域的探索和评估。Med-VTAB 涵盖了168万张医学图像，包括10个重要器官和5种在真实世界医学场景中具有挑战性的模态，使其成为最广泛的同类基准之一。该基准旨在探讨视觉任务适应性策略的有效性，并研究医学影像适应中的扩展规律。

图1：Med-VTAB 数据集概览作为大规模的医学影像适应性基准数据集概览

随后，研究员们考察了医学提示调优中可调参数数量与模型性能之间的关系，以及来自医学和非医学预训练权重的适应性的泛化能力。并且，研究员们还对患者 ID 分布变化影响适应模型性能进行了研究，这是医学应用中模型对新患者数据鲁棒性至关重要的一个方面。

除了这些探索之外，研究员们还提出了一种新的适应技术，即门控专家混合适配器（GMoE-Adapter）。它利用了来自医学和通用视觉预训练的见解，在医学视觉任务适应中实现了最先进的性能。GMoE-Adapter 展示了结合领域特定知识与来自多种来源的广泛、通用学习的混合适应策略的潜力。

图2：门控专家混合适配器（GMoE-Adapter）框架与标准适配器和 MoE-Adapter 方法的对比

通过 Med-VTAB 基准和对适应策略与扩展规律的研究，这项工作将为医学视觉任务适应研究设立新的标准。而通过强调定制适应技术的重要性和对新颖适应方法的探索，研究员们希望可以提高诊断准确性以及提升患者的治疗效果。

对齐视觉模型与人类美学：算法与评估

论文链接：

https://arxiv.org/abs/2406.09397

现有的大规模视觉-语言模型需要在网络级大规模的数据上进行预训练。但数据参差不齐，得到的模型往往面临价值对齐的问题。在文本-图像检索任务中，可能表现为美学质量过低，细粒度要求不符，带有有害偏见等问题。由于这类问题主观性较高，目前缺乏有效的方式进行评估和改进。

因此，研究员们选择了最为主观的任务之一——美学作为代表，来研究价值对齐的问题。根据美学的定义和研究，美学可以划分为主观的美学理解（象征性、文化性等）和客观的视觉吸引力（色彩、分辨率、饱和度等），其它对齐任务也类似。研究员们发现，人类对美学的理解由于存在于大量的文献和著作中，所以能够被大语言模型学习，进一步地，通过使用大语言模型为用户查询、扩展美学期望，从而能极大地提高美学效果。

研究员们公平地评估了各种提示词下的大语言模型和美学模型，证明了大语言模型带来美学理解的有效性和美学模型所包含图像先验的有效性和互补性。为了实现端到端的高效检索系统，研究员们提出一个基于排序的强化学习算法来微调视觉模型，并从大语言模型和美学模型中蒸馏知识。

在评估时，研究员们首先构建了一个美学偏好数据集 HPIR，由于美学的主观性，每条样本都要经过30次标注的投票，并给出置信度。利用 HPIR，研究员们还验证了 GPT-4V 作为美学评判器的可行性。最终的实验在 HPIR、GPT-4V 评判和人类评判三个机制下共同验证，经过美学对齐微调后的端到端检索模型可以和集成了大语言模型和美学模型的多阶段系统取得相似的成绩，这极大地简化了高质量检索系统的复杂度，减轻了维护代价和检索时延。

图3：从大语言模型和美学模型中用强化学习蒸馏美学理解和视觉先验

GLC：基于生成式特征编码的极低码率图像编解码器

论文链接：

https://openaccess.thecvf.com/content/CVPR2024/papers/Jia_Generative_Latent_Coding_for_Ultra-Low_Bitrate_Image_Compression_CVPR_2024_paper.pdf

目前主流的图像编解码器通常在像素空间直接对图像编码。然而，图像像素的失真度量指标并非总是与人类的视觉一致，尤其在图像编码失真较为严重的极低码率压缩场景中。因此，实现更符合人类视觉的图像编码是一项关键挑战。

微软亚洲研究院的研究员们发现，相比于原始像素，生成式 VQ-VAE 的特征具有更高的主观视觉一致性、更低的熵和更高的鲁棒性，所以更适合高主观质量的极低码率编码。基于这一观察，研究员们提出了可以在生成式 VQ-VAE 的特征空间进行编码的模型 GLC。

图4：GLC 与之前 SOTA 图像编码器的视觉质量对比

具体来说，GLC 首先使用 VQ-VAE 的编码器将图像编码为生成性特征，然后通过变换编码网络对这些特征进行编码，最后将解码的特征通过 VQ-VAE 的解码器重建为图像。在编码图像时，GLC 不需要使用 VQ 编码，而是设计了一个变换编码网络用于特征压缩。这种设计不仅提高了 GLC 的压缩率，还使其可以支持可变码率编码。

为了提高压缩性能，GLC 在变换编码的边信息编码中设计了一种基于矢量码本的先验模型。与传统的可分离先验相比，这种先验能够以更低的码率编码更强的语义信息。GLC 还在训练中使用了一个辅助网络，根据解码特征预测原图所对应的 VQ 索引，从而提高解码特征与原图的语义一致性。

实验结果表明，GLC 在多个测试基准中实现了最高的压缩性能。GLC 可以以平均每像素0.03比特的极低压缩率实现高质量的图像压缩。与基于像素空间压缩的 SOTA 编码器 MS-ILLM 相比，GLC 在相同的 FID 指标下节省了超过45%的比特。另外，通过利用其特征空间，GLC 可以在压缩图像的同时实现图像恢复、风格迁移等功能。

MH-MoE：多头混合专家网络

论文链接：

https://arxiv.org/abs/2404.15045

进一步提升如大型语言模型（LLMs）和大型多模态模型（LMMs）等大型容量模型（large capacity models）的性能，有一个可靠的方法就是通过增加参数数量来扩展它们。然而，这些模型的庞大尺寸显著降低了推理速度，进一步限制了它们的实用性。在此背景下，稀疏混合专家（SMoE）的方法被提出，它在减轻计算成本的同时促进了模型的可扩展性，但仍然面临专家激活率低、缺乏细粒度的分析能力等缺点。

因此，微软亚洲研究院的研究员们提出了一个名为多头混合专家网络（Multi-Head Mixture of Experts, MH-MoE）的高效变体结构来缓解上述问题。多头混合专家网络采用多头机制将每个输入的令牌分割成多个子令牌，这些子令牌随后会被分配给不同的专家网络并行处理，最终无缝地重新整合回原始令牌形式。

图5：MH-MoE 在视觉和语言数据上的工作流

MH-MoE 有如下优点：

更高的专家激活效率。如图6所示，SMoE 有许多未被激活的专家（暗色），而 MH-MoE 则显著提高了这些专家的使用率，达90.71%。

图6：稀疏混合专家网络层（左）和多头混合专家网络层（右）

更精细的理解能力。如图7所示，子符号被 MH-MoE 分配给了更多不同的专家（亮区），使不同专家能够共同关注来自不同表征空间的信息，最终实现更好的细粒度理解能力。

图7：MH-MoE 对子符号的分配，亮区-分配给了不同专家，暗区-分配给了相同专家。

除此之外，MH-MoE 实现简单，可与其他稀疏混合专家网络优化方法解耦，易于集成到其他稀疏混合专家网络模型中以提高性能。

研究员们还在三个预训练任务及其下游任务上进行了广泛的实验，结果表明，该方法不仅显著提升了专家混合网络在上游预训练任务和下游任务中的表现，还在很大程度上缓解了专家激活率低的问题，使模型更加高效。

你也许还想看：

‍‍

http://mp.weixin.qq.com/s?__biz=MzAwMTA3MzM4Nw==&mid=2649501159&idx=1&sn=4bf3f02f34813ab273efdd81ab812dde

微软亚洲研究院

微软亚洲研究院，专注科研26年，盛产黑科技

最新文章

Rust自动形式化证明、LLMs图模式理解、机械臂动作模仿

科学匠人 | 对话松下康之：以具身智能突破人工智能与物理世界的边界

对话《Nature》论文作者，揭秘AI2BMD背后的故事

近实时的全球碳预算，揭示2023年陆地碳汇能力锐减

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

MarS：生成式基座模型时代的通用金融市场模拟引擎

明天直播 | ECCV 2024精选论文分享

如何泛化AI的深度推理能力？

简单而强大：DIFF Transformer降噪式学习，开启模型架构新思路

科学匠人 | 刘海广：发挥“生物多样性”法则的力量，寻找科学的新答案

VIS 2024最佳论文 | VisEval：推动自然语言生成可视化的全新评估框架

从预测风暴到设计分子：人工智能基础模型如何加速科学发现

ECCV上新 | 精选计算机视觉领域6篇前沿论文

Data Formulator：使用prompt就能轻松完成数据可视化

为什么你的LLMs玩不转外部知识？RAG分类学助你诊断！

守护记忆：多模态大模型为认知障碍患者带来全新的训练方法

科研上新 | 金融模型、LLMs结构化剪枝、多模态对齐、AI芯片深度学习编译器

开源工具RD-Agent：让研究与开发过程更智能

VALL-E 2，大幅提升语音大模型的稳健性与自然度

微软亚洲研究院2025校园招聘正式开启！

跨越模态边界，探索原生多模态大语言模型

明天直播 | ACL 2024精选5篇论文直播分享

代码摘要、生成、翻译、修复全覆盖... WaveCoder开启代码智能新篇章

集成大语言模型与产业数据智能，迈向“产业基础模型”

Microsoft Research Forum第四期来了！一起来看多模态模型的最新技术进展与应用

星跃计划 | 微软亚洲研究院北京+温哥华联合科研项目上新，聚焦大语言模型！

开启因果发现新范式！解密复杂系统的核心机制

微软亚洲研究院多项创新技术，弥合大模型低比特量化与终端部署间鸿沟

顶尖高校优秀学子齐聚微软亚洲研究院新星科技节，论道科研！

如何理解和探索大模型的多语言能力？

执业医师转型人工智能研究员，王子龙说“跨”才是关键

ACL上新 | 6篇精选论文带你看最新LLMs进展

周二直播 | AI for Science最新论文分享

USENIX ATC 2024最佳论文 | 微软如何提升云AI基础设施的可靠性

图像解码器；多头混合专家网络；视觉模型美学对齐；医学视觉任务适应基准

大语言模型应用如何实现端到端优化？

LSR-MP：突破分子模拟瓶颈，探索知识引导的AI范式

明天直播 | ICML 2024精选论文分享

nnScaler：重塑深度学习并行策略，大幅提升训练效率

ICML 2024 | 微软亚洲研究院邀你共聚机器学习领域盛会

完全激活稀疏大模型，Q-Sparse突破LLM推理效能

数据驱动模型提升电动汽车电池退化预测准确率

ProbTS：时间序列预测的统一评测框架

你应该知道的10个AI术语

实习 | 微软亚洲研究院“明日之星”开放岗位

脑启发设计：人工智能的进化之路

以智能化为舵手，引领现代计算机系统架构新航向

构建负责任且大规模的生成式人工智能的七个启示

AI赋能天气：微软研究院发布首个大规模大气基础模型Aurora

CVPR上新 | 从新视角合成、视频编解码器、人体姿态估计，到文本布局分析，微软亚洲研究院精选论文

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉