NeurIPS 2024震撼发布：上交大&清华领衔创新，Diff-eRank大模型评估新指标，精准衡量LLM去噪实力！

文摘 2024-11-04 10:00 北京

点击上方蓝字关注我们

自从 GPT、PaLM、Llama 等预训练大语言模型在各种自然语言处理任务上表现出优秀的性能以来，大语言模型的发展十分迅速，并已经从单模态大语言模型扩展到了多模态大模型，例如 MiniGPT-4、LLaVA 等都在各种应用场景中取得了相当惊艳的效果。

如何全面、科学地评估这些模型的性能成为了研究者们面临的一个重要挑战。传统的评估方法多集中于模型在下游任务上的表现，例如准确率 (Accuracy) 、交叉熵损失 (Cross-Entropy Loss) 等指标。但这些方法只关注模型的预测结果与标注标签之间的比较，无法深入探究模型内部的信息处理过程。

此外，对于多模态大语言模型，现有的评估指标无法给出诸如模态之间的对齐程度等更加重要维度上的评价。因此，现阶段对于纯语言大模型和多模态大模型的评估方法仍然存在较大的局限性，需要更加多元化、精细化的评价方法。

为了解决这些挑战，来自上海交通大学和清华大学等科研团队的研究者提出了一种全新的大模型评估指标 Diff-eRank。这是一种基于模型表征的「有效秩」的评估指标，从信息论和几何学的角度分析并量化大语言模型在训练前后如何剔除冗余信息，并以此衡量模型性能。

与传统的评估指标（如交叉熵损失和测试集准确率）不同，Diff-eRank 并不依赖于模型的输出结果，而是通过分析模型的隐藏表征来评估模型的性能。对于多模态大模型，研究团队也设计了基于有效秩的评估方法，通过比较不同模态表征之间的有效秩匹配程度来评估模态对齐性能，证实了主流多模态大模型具有出色的对齐能力。

本工作已被 NeurIPS 2024 (机器学习三大顶会之一，CCF-A 类) 会议接收。论文共同第一作者为上海交通大学 MIFA 实验室的博士生魏来和清华大学的博士生谭智泉，通讯作者为上海交通大学 MIFA 实验室的黄维然副教授，共同作者包括来自 William and Mary 的王晋东助理教授。

论文标题：Diff-eRank: A Novel Rank-Based Metric for Evaluating Large Language Models
论文链接：https://arxiv.org/abs/2401.17139
代码链接：https://github.com/waltonfuture/Diff-eRank

为什么引入 Diff-eRank？

在介绍 Diff-eRank 之前，我们不妨先思考一个问题：一个语言模型是如何从海量的训练数据中「学习」到知识的？

Ilya Sutskever 在 2023 年的演讲中提到：大语言模型海量数据中训练时，会逐步消除其表征空间中的冗余信息，使得数据的表征变得更加规整、结构化。这个过程类似于「去噪」，即模型逐渐剔除数据中的无用信息，同时提取出更重要的模式和特征。然而，之前并没有研究提出可靠的指标来定义和量化这个「去噪」过程。

在此背景下，研究团队引入了有效秩的概念（Effective Rank，后面简写为 eRank），用于反应大模型表征空间的不确定性或混乱程度。大模型在训练时去除数据中的冗余信息，eRank 减小，模型的表征变得更加结构化和紧凑。

因此，研究团队提出了 Diff-eRank，通过分析大语言模型的表征的有效秩在训练前后的变化幅度，来评估大模型的「去噪能力」。Diff-eRank 提供了一个基于模型表征的全新评估方法，并且具有良好的理论基础与可解释性，为理解大模型的工作原理提供了独特的视角。

Diff-eRank的构造过程

具体而言，大模型在处理一系列输入时，它会为每个 token 生成一个高维表征；这些表征通常可以捕捉输入的语义和句法信息。因此，研究团队考虑分析这些表征来评估大模型的性能。

具体而言，团队选择从几何和信息论的角度研究这些表征的秩。秩可以衡量它们这些表征的线性相关程度，对应于表征空间的有效维度（即几何结构）。此外，秩还与这些表征所包含的信息量有关：较低的秩代表信息已被结构化或压缩。因此，作者通过分析大模型表征的秩来进行模型评估。

协方差矩阵的构建

给定一个句子中 tokens 的表征集，协方差矩阵构建如下：

其中是表征的均值。

有效秩 (eRank)

由于秩对异常值非常敏感，因此研究团队使用秩的一种连续形式，称为有效秩 (eRank) 。给定任何非零矩阵，其有效秩定义为：

其中，是矩阵的奇异值。

值得注意的是，eRank与信息论中的熵的概念有着紧密的联系。上面构造的协方差实际上就是一个标准的「概率密度矩阵」。这里面的有效秩可以从信息论的角度理解为表征空间中的不确定性（具体解释详见原论文）。

Diff-eRank 的定义

给定一个句子，一个未训练的语言模型和一个训练完毕的语言模型，我们可以得到这两个模型的表征和。对于句子，这两个模型之间的有效秩差异 (Diff-eRank) 定义如下：

其中是模型在句子上的表征的协方差矩阵，其中。

进一步，当给定一个数据集及其包含的句子，一个未训练的语言模型和一个训练完毕的语言模型时，数据集上的 Diff-eRank 可以被定义为和在所有句子上的有效秩的平均值之差。

由此我们可以看出，Diff-eRank 反映了模型表征空间的降维，也可以用于衡量大语言模型去除数据中冗余信息的程度。较高的 Diff-eRank 表明模型的内部表征更加有序和结构化，体现了模型可以有效提取数据中的模式和规律。

Diff-eRank 评估大语言模型的实验结果

研究团队使用 OPT 模型家族在多个数据集上计算 Diff-eRank 。由于 Loss 是最常用于观测预训练模型的指标，因此团队采用模型在训练前后交叉熵损失的减小量 (Reduced Loss) 作为对比。

通过在不同类型的数据集（如 Wikipedia、openwebtext2、dolly-15k 和 hh-rlhf）上使用 Diff-eRank 和 Reduced Loss 对 OPT 模型家族进行评估，下图的实验结果发现 Diff-eRank 和 Reduced Loss 都随着模型规模的扩大而上升。这一趋势说明更大规模的模型在信息压缩和冗余消除方面表现得更加出色。这也体现了 Diff-eRank 可以从「去噪」角度为语言模型提供新的评估方法。

为了进一步验证 Diff-eRank 的有效性，作者在基准测试数据集上，引入准确率作为比较指标。实验结果如下图显示，这三个指标在测试集上基本都在模型规模增加时变大。而且与 Loss 相比，Diff-eRank 与准确率的趋势更加一致，说明 Diff-eRank 可以有效地用于评估语言模型。

除了 OPT 之外，作者还用 Cerebras-GPT 和 OpenELM 家族进行实验。下图的实验结果体现 Diff-eRank 在不同模型家族中，都随着模型规模的上升而增加，并与 Reduced Loss 和基准测试准确率趋势相关，体现了 Diff-eRank 对不同模型家族的稳定性。

Diff-eRank 能否扩展到多模态大模型的评估？

Diff-eRank 背后的思想还可以拓展用于多模态大模型的评估。例如，在视觉-语言多模态大模型中，我们可以通过借助表征的有效秩分析视觉和语言表征的匹配程度来衡量模型的模态对齐性能。

对于多模态实验，作者选择了两个最有名的开源多模态大模型：LLaVA-1.5 和 MiniGPT4-v2。这两个多模态大模型都使用了一个简单的连接器来对齐视觉编码器与大语言模型。

作者在 detail_23k 和 cc_sbu_align 这两个高质量的多模态指令数据集上进行实验。这些数据集中的每条数据都是由图像、指令和响应组成的三元组。实验中，作者将每个三元组的指令和响应拼接作为文本输入。

如上图所示，文章中的实验包括分析视觉编码器后图像表征的有效秩（），连接器的表征的有效秩 ()，以及大语言模型对单个图像输入 () 、文本输入 () 和图像-文本对输入 () 的表征的有效秩。

为了衡量多模态大模型的「模态对齐」能力，研究团队引入了两个基于 eRank 的不同指标：

和

图像压缩比可以量化图像表征从视觉编码器到连接器的有效秩的减少，评估连接器在图文对齐训练中压缩和提炼视觉信息的效率。

图像-文本对齐指标可以评估大语言模型对图像、文本和图像-文本对的表征的有效秩之间的接近程度，进而反映不同模态的对齐程度。

下面的表中展示了 LLaVA-1.5 和 MiniGPT-v2 在不同数据集上均有较高的对齐分数，说明它们对齐良好。具体而言，LLaVA-1.5 在「图像-文本对齐」方面优于 MiniGPT-v2，表明在视觉和文本模态之间的对齐更紧密，这也与 LLaVA-1.5 在大部分测试集分数优于 MiniGPT-v2 的现象一致。

此外，研究团队还进行了额外的实验，计算了对图像进行顺时针旋转操作后的有效秩。下面表中的结果表明，所有与图像相关的量 ( ()) 在执行旋转后都会上升，这说明多模态模型能感知图像的细微语义变化，尤其是位置信息。图像旋转后，图像压缩比和图像-文本对齐分数均下降，表明连接器在压缩视觉信息方面效果变差，以及旋转后的图像与相应文本对齐性变差。

这些基于秩的方法使我们能够深入了解多模态模型如何对齐不同模态的数据，以及模型如何处理和整合不同形式的输入数据。

结论与展望

Diff-eRank 作为一种全新的评估指标，为我们提供了一个独特的理论视角去理解和分析大模型的一种工作原理。Diff-eRank 不仅有助于评估大模型的「数据去噪」能力，还可能为模型压缩（如剪枝、量化、蒸馏等）等技术的发展提供新的视角。比如，Diff-eRank 或许有助于识别模型中哪些部分可以在不显著损失信息的情况下进行压缩。我们期待未来更多的研究者可以进一步拓展 Diff-eRank 的应用。

关于我们

MIFA 实验室全称 Machine Intelligence Foundations and Applications Laboratory，即机器智能基础与应用实验室，隶属于上海交大清源研究院。实验室以长期的、有影响力的研究为驱动，致力于消除人工智能理论与实际应用之间的鸿沟，为 AI 的应用提供行之有效的理论指导。实验室团队小而精，科研氛围浓厚，负责人为黄维然副教授。目前，MIFA 实验室和多所知名高校、国家实验室、三甲医院以及业界大厂保持着紧密的学术合作与交流关系。

致谢作者，本文系论文作者原创，已获得独家授权，转载请注明出处！关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️ /欢迎投稿

喜欢的话，请别忘记点赞👍➕关注哦

一文彻底搞懂多模态 - 多模态推理

大模型经典著作《大语言模型基础与前沿》

NeurIPS 2024|耦合Mamba：通过耦合状态空间模型增强多模态融合

腾讯&南大最新联合发布｜VITA：首个开源交互式全能多模态大模型！

一文彻底搞懂多模态 - 多模态学习

ICCV 2023｜CleanCLIP重磅登场！消除多模态对比学习中的数据中毒攻击

导师一个idea都没给，但也发了顶会AAAI，我摸索的这个方法绝了！

重磅3D多模态MSF框架发布！2D/3D语义分割双模态解析，重塑3D物体检测多语义融合框架

最新进展！全新特征学习框架，深度解析单模态与多模态对比学习泛化差异

揭秘时间魔法！段类型特征驱动的时间序列聚类算法

EMNLP 2024 多模态学习最新论文合集出炉！快速关注热点研究！

文末赠书｜深度揭秘！多模态大模型如何运作？一文读懂其核心原理！

NeurIPS 2024震撼发布：上交大&清华领衔创新，Diff-eRank大模型评估新指标，精准衡量LLM去噪实力！

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉