高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

创业 2024-11-20 08:22 北京

是否还在苦恼如何评估自己预训练好的多模态 LLM 的性能？是否还在使用并不靠谱的损失 Loss，困惑度 Perplexity（PPL），上下文 In-Context 评估，亦或是一遍遍地通过有监督微调（SFT）之后下游测试基准的分数来判断自己的预训练是否有效？
来自中科大等单位的研究团队共同提出了用来有效评估多模态大模型预训练质量的评估指标 Modality Integration Rate（MIR），能够快速准确地评估多模态预训练的模态对齐程度。

论文标题：
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
论文链接：
https://arxiv.org/abs/2410.07167
代码链接：
https://github.com/shikiw/Modality-Integration-Rate

一、研究背景

预训练（Pre-training）是现有多模态大模型（MLLM）在训练过程中一个不可或缺的阶段。不同于大型语言模型（LLM）的预训练，多模态预训练的主要目标聚焦于不同模态之间的对齐。随着近两年的发展，多模态预训练已经从轻量级图像 - 文本对的对齐，发展为基于广泛多样的多模态数据进行深层次模态集成，旨在构建更通用的多模态大模型。

然而，多模态预训练的评估对于业界仍然是一个未被充分解决的挑战。现有最常用的评估手段为通过进一步的有监督微调（SFT）来测试在下游基准上的模型能力，但是其伴随的计算成本和复杂性不容忽视。另外有一些方法通过借用 LLM 的预训练评估指标，包括损失值 Loss、困惑度 PPL 和上下文 In-Context 评估等方式，在多模态预训练评估中都被证明是不稳定和不可靠的。

研究者们通过在不同规模的高质量预训练数据上预训练 LLaVA-v1.5 的 7B 模型，用上述不同的方法评估其预训练质量，并与有监督微调之后在下游测试基准上的得分进行对照。如下图所示，损失值 Loss、困惑度 PPL、以及上下文 In-Context 评估都无法准确的对应 SFT 之后在下游测试基准上的模型性能，而本文提出的模态融合率 MIR 则能完美对应。

实际上，PPL 等指标的不适用主要由于 LLM 与 MLLM 在预训练目标上的差异。LLM 预训练主要学习建模语言的基本模式，而 MLLM 预训练则侧重于缩小不同模态之间的差距。如果用多个不同来源的图像和文本数据，并在 LLaVA-v1.5 的大模型输入层去可视化它们的特征分布，会发现尽管图像或文本内容多样，但在每种模态内，它们的分布相对均匀，而模态之间则存在明显的分布差距，如下图（左）所示。

如上图（右）所示，通过进一步计算现有 MLLM 的在大模型不同层中的模态差距，会观察到浅层的时候仍然有较大差距，但当到越来越深的层，这一差距逐渐缩小，这表明 MLLM 在训练过程中仍需要学习对齐不同分布，以理解新引入的模态。

二、技术方案

本文提出模态融合率 MIR，能够用于评估多模态预训练的跨模态对齐质量。该指标能准确反映各种预训练配置（如数据、策略、训练配方和架构选择）对模型性能的影响，而无需再进行有监督微调 SFT 并于下游测试基准上评估。

对于一个预训练的多模态大模型，其中表示视觉编码器，表示视觉语言映射模块，表示包含分词器和层 transformer 的底座大模型。当输入一组 “图像 - 文本” 对给模型，会从大模型第层得到该层关于数据对的视觉 token 特征和文本 token 特征，即

研究者们将多个样本的特征合并到一起得到，同理可以合并得到，并且定义为第个视觉 token 特征，为第个语言 token 特征。

文本中心归一化

由于越深层的 token 特征在数值绝对尺度上明显比浅层的大，并且不同模态特征间在绝对尺度上存在差异，直接使用 Frechet 距离等度量函数、或是把所有 token 特征统一归一化后再使用度量函数都是不合适的。为此，研究者们设计了一种文本中心的归一化方法，对于中的总共 s 个文本 token 特征，计算尺度因子：

然后对第层对应的视觉特征和文本特征都使用该因子进行放缩，在保证跨层对比合理性的同时，保持模态间绝对尺度带来的差异。

离群值筛除

许多工作如 StreamLLM [1]、Massive Activations [2] 都提到，有极少部分绝对数值异常大的 token 会用来在注意力模块的 SoftMax 计算中使总和填充到 1。为了避免此类离群值对整体统计分布的影响，这里使用 “3-sigma” 的准则对于所有和中的离群值进行筛除。以下用 omega 表示这个操作。

模态融合率

在经过文本中心归一化以及离群 token 筛除之后，模态融合率 MIR 可以通过累和大模型逐层的模态域间距离来得到：

其中，和分别是处理后视觉 token 特征和文本 token 特征的均值，而

对应于各自的协方差计算。最后的平方根项通常在 PyTorch 中计算缓慢，这是由于大模型的特征维度普遍较高。因此研究者们使用 Newton-Schulz 迭代近似的方式估计该项，在大大提高计算速度的同时，保证实践中误差不超过 1%。总体上来看，越低的 MIR 代表着越高的预训练模态对齐质量。

可学习模态校准

在对 MIR 的探究推导过程中，证明了底座大模型在训练过程中展现出的在浅层逐渐缩小模态间差距的倾向。这促使研究者们重新思考多模态大模型中一些继承自大型语言模型的设计是否不利于促进跨模态对齐。为此，研究者们提出了 MoCa，一个可插拔轻量级的可学习模块，来促进跨模态对齐。简单来说，即对于每一层的视觉 token 特征单独进行一个可学习的缩放和偏移：

其中缩放向量 u 初始化为全一向量，偏移向量 v 初始化为全 0 向量，两者随着模型一起训练，但是基本不增加额外参数量。

三、实验探究

研究者们首先展示了 MIR 在在扩大预训练数据规模时衡量预训练质量的有效性。这里采用两种预训练策略：1) 仅训练 MLP 投影模块；2) 解锁视觉编码器后半部分和整个 LLM。在第一种策略下，SFT 后的性能在 800K∼1M 数据规模时逐渐改善但趋于饱和。而在使用第二种策略时，即使在 1.8M 数据规模下，性能仍持续显著提升。该结果说明了了 MIR 在扩大预训练数据时的有效性，也说明了适当地放开视觉编码器或 LLM 在大规模数据上有持续改善预训练的效果。

研究者们也探究了 MIR 在超参数调整、预训练策略选择上的有效性。在超参数调整方面，研究者们发现 MIR 与 SFT 后下游测试基准性能之间存在正相关，这说明 MIR 直接反映不同训练超参数对于在预训练质量的影响，以后对照 MIR 就可以实现预训练调参炼丹！

在训练策略方面，研究者们探讨了 MIR 如何指导选择有效的预训练放开策略。结果显示，放开 LLM 显著降低了 MIR，且显著增强下游基准上的表现。

同时，MIR 也可以帮助选择一些有利于跨模态对齐的模块设计。如下图所示，当使用不同的视觉语言投影模块结构时，MIR 可以很准确的对应到 SFT 之后的测试基准性能。

同样，所提出的可学习模态校准 MoCa 也可以有效帮助不同模型在下游测试基准上涨点，并取得更低的 MIR。

本文仍有较多其他方面的实验和探索，有兴趣的同学可以参考原文！

参考文献

[1] Xiao et al. Efficient Streaming Language Models with Attention Sinks. ICLR, 2024.

[2] Sun et al. Massive Activations in Large Language Models. COLM, 2024.

作者：黄启栋
来源：公众号【机器之心】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650515469&idx=2&sn=d3a8ff51aa7c2347a935d12ce0b17067

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

AgentSense：基于多样化交互场景的智能体社交智能评测基准

Talk预告｜MBZUAI曾聪：DALD-无需黑盒信息增强LLM检测器

NeurIPS 2024 | WKM：增强智能体规划的世界知识模型

将门创新伙伴 | 2024 Honda Digital Day圆满落幕：深化创新合作，共塑智能未来

活动报名 | 第五届数据智能与知识服务研讨会（DIKS2024）：人工智能促进科研创新和产业变革

ECCV 2024 | 扩散模型持续跨界，UC伯克利等单位提出基于扩散模型的新数据挖掘工具

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

Talk预告｜NUS余昭辰&PKU张子翔：大模型推理与多模态扩散模型的协同作用

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉