高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

科技 2024-11-04 12:32 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者来自于中国科学技术大学，上海人工智能实验室以及香港中文大学。其中第一作者黄启栋为中国科学技术大学三年级博士生，主要研究方向包括多模态大模型（MLLM）和可信 / 高效 AI，师从张卫明教授。

是否还在苦恼如何评估自己预训练好的多模态 LLM 的性能？是否还在使用并不靠谱的损失 Loss，困惑度 Perplexity（PPL），上下文 In-Context 评估，亦或是一遍遍地通过有监督微调（SFT）之后下游测试基准的分数来判断自己的预训练是否有效？

来自中科大等单位的研究团队共同提出了用来有效评估多模态大模型预训练质量的评估指标 Modality Integration Rate（MIR），能够快速准确地评估多模态预训练的模态对齐程度。

标题：Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
论文：https://arxiv.org/abs/2410.07167
代码：https://github.com/shikiw/Modality-Integration-Rate

研究背景

预训练（Pre-training）是现有多模态大模型（MLLM）在训练过程中一个不可或缺的阶段。不同于大型语言模型（LLM）的预训练，多模态预训练的主要目标聚焦于不同模态之间的对齐。随着近两年的发展，多模态预训练已经从轻量级图像 - 文本对的对齐，发展为基于广泛多样的多模态数据进行深层次模态集成，旨在构建更通用的多模态大模型。

然而，多模态预训练的评估对于业界仍然是一个未被充分解决的挑战。现有最常用的评估手段为通过进一步的有监督微调（SFT）来测试在下游基准上的模型能力，但是其伴随的计算成本和复杂性不容忽视。另外有一些方法通过借用 LLM 的预训练评估指标，包括损失值 Loss、困惑度 PPL 和上下文 In-Context 评估等方式，在多模态预训练评估中都被证明是不稳定和不可靠的。

研究者们通过在不同规模的高质量预训练数据上预训练 LLaVA-v1.5 的 7B 模型，用上述不同的方法评估其预训练质量，并与有监督微调之后在下游测试基准上的得分进行对照。如下图所示，损失值 Loss、困惑度 PPL、以及上下文 In-Context 评估都无法准确的对应 SFT 之后在下游测试基准上的模型性能，而本文提出的模态融合率 MIR 则能完美对应。

实际上，PPL 等指标的不适用主要由于 LLM 与 MLLM 在预训练目标上的差异。LLM 预训练主要学习建模语言的基本模式，而 MLLM 预训练则侧重于缩小不同模态之间的差距。如果用多个不同来源的图像和文本数据，并在 LLaVA-v1.5 的大模型输入层去可视化它们的特征分布，会发现尽管图像或文本内容多样，但在每种模态内，它们的分布相对均匀，而模态之间则存在明显的分布差距，如下图（左）所示。

如上图（右）所示，通过进一步计算现有 MLLM 的在大模型不同层中的模态差距，会观察到浅层的时候仍然有较大差距，但当到越来越深的层，这一差距逐渐缩小，这表明 MLLM 在训练过程中仍需要学习对齐不同分布，以理解新引入的模态。

技术方案

本文提出模态融合率 MIR，能够用于评估多模态预训练的跨模态对齐质量。该指标能准确反映各种预训练配置（如数据、策略、训练配方和架构选择）对模型性能的影响，而无需再进行有监督微调 SFT 并于下游测试基准上评估。

对于一个预训练的多模态大模型 M = (E, P, D)，其中 E 表示视觉编码器，P 表示视觉语言映射模块，D = (D_t, F) 表示包含分词器 D_t 和 K 层 transformer 的底座大模型 F。当输入一组 “图像 - 文本” 对 {v_n, t_n}, n = 1,..., N 给模型，会从大模型第 k 层 F_k 得到该层关于数据对 {v_n, t_n} 的视觉 token 特征 f_k^{v_n} 和文本 token 特征 f_k^{t_n}，即

研究者们将多个样本的特征 f_k^{v_n} 合并到一起得到 f_k^v，同理 f_k^{t_n} 可以合并得到 f_k^t，并且定义 f_{k, i}^v 为第 i 个视觉 token 特征，f_{k, j}^t 为第 j 个语言 token 特征。

文本中心归一化

由于越深层的 token 特征在数值绝对尺度上明显比浅层的大，并且不同模态特征间在绝对尺度上存在差异，直接使用 Frechet 距离等度量函数、或是把所有 token 特征统一归一化后再使用度量函数都是不合适的。为此，研究者们设计了一种文本中心的归一化方法，对于 f_k^t 中的总共 s 个文本 token 特征，计算尺度因子：

然后对第 k 层对应的视觉特征和文本特征都使用该因子进行放缩，在保证跨层对比合理性的同时，保持模态间绝对尺度带来的差异。

离群值筛除

许多工作如 StreamLLM [1]、Massive Activations [2] 都提到，有极少部分绝对数值异常大的 token 会用来在注意力模块的 SoftMax 计算中使总和填充到 1。为了避免此类离群值对整体统计分布的影响，这里使用 “3-sigma” 的准则对于所有 f_k^v 和 f_k^t 中的离群值进行筛除。以下用 omega 表示这个操作。

模态融合率

在经过文本中心归一化以及离群 token 筛除之后，模态融合率 MIR 可以通过累和大模型逐层的模态域间距离来得到：

其中，mu_{v, k} 和 mu_{t, k} 分别是处理后视觉 token 特征和文本 token 特征的均值，而

对应于各自的协方差计算。最后的平方根项通常在 PyTorch 中计算缓慢，这是由于大模型的特征维度普遍较高。因此研究者们使用 Newton-Schulz 迭代近似的方式估计该项，在大大提高计算速度的同时，保证实践中误差不超过 1%。总体上来看，越低的 MIR 代表着越高的预训练模态对齐质量。

可学习模态校准

在对 MIR 的探究推导过程中，证明了底座大模型在训练过程中展现出的在浅层逐渐缩小模态间差距的倾向。这促使研究者们重新思考多模态大模型中一些继承自大型语言模型的设计是否不利于促进跨模态对齐。为此，研究者们提出了 MoCa，一个可插拔轻量级的可学习模块，来促进跨模态对齐。简单来说，即对于每一层的视觉 token 特征单独进行一个可学习的缩放和偏移：

其中缩放向量 u 初始化为全一向量，偏移向量 v 初始化为全 0 向量，两者随着模型一起训练，但是基本不增加额外参数量。

实验探究

研究者们首先展示了 MIR 在在扩大预训练数据规模时衡量预训练质量的有效性。这里采用两种预训练策略：1) 仅训练 MLP 投影模块；2) 解锁视觉编码器后半部分和整个 LLM。在第一种策略下，SFT 后的性能在 800K∼1M 数据规模时逐渐改善但趋于饱和。而在使用第二种策略时，即使在 1.8M 数据规模下，性能仍持续显著提升。该结果说明了了 MIR 在扩大预训练数据时的有效性，也说明了适当地放开视觉编码器或 LLM 在大规模数据上有持续改善预训练的效果。

研究者们也探究了 MIR 在超参数调整、预训练策略选择上的有效性。在超参数调整方面，研究者们发现 MIR 与 SFT 后下游测试基准性能之间存在正相关，这说明 MIR 直接反映不同训练超参数对于在预训练质量的影响，以后对照 MIR 就可以实现预训练调参炼丹！

在训练策略方面，研究者们探讨了 MIR 如何指导选择有效的预训练放开策略。结果显示，放开 LLM 显著降低了 MIR，且显著增强下游基准上的表现。

同时，MIR 也可以帮助选择一些有利于跨模态对齐的模块设计。如下图所示，当使用不同的视觉语言投影模块结构时，MIR 可以很准确的对应到 SFT 之后的测试基准性能。

同样，所提出的可学习模态校准 MoCa 也可以有效帮助不同模型在下游测试基准上涨点，并取得更低的 MIR。

本文仍有较多其他方面的实验和探索，有兴趣的同学可以参考原文！

参考文献：

[1] Xiao et al. Efficient Streaming Language Models with Attention Sinks. ICLR, 2024.

[2] Sun et al. Massive Activations in Large Language Models. COLM, 2024.

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941398&idx=4&sn=dd7222cb1e1039256c26585e54b008bf

机器之心

专业的人工智能媒体和产业服务平台

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉