GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

科技 2024-12-17 08:04 北京

多模态大模型在听觉上，居然也出现了 ‘9.11>9.8’ 的现象？！

在人工智能领域，我们一直以为顶尖的多模态大模型已经无所不能。其中 GPT-4o 在 ASR（音频转文字）任务上取得了 97% 的正确率更是凸显了强大的音频理解能力。

然而，最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core 等最先进的多模态大模型居然无法正确分辨明显不同的声音大小！

下面是一个例子：

音频1：

音频2：

结果让人难以置信：这些顶尖的 AI 模型都未能准确判断出音量的差异！对于人类来说，这种问题简直是“傻瓜级”任务，然而这些大模型却纷纷失手，暴露出其在基本听觉能力上的严重缺陷。

这一发现激发了研究团队的思考：为什么如此先进的模型在听觉辨识方面如此薄弱？为了填补这一空白，研究团队首度提出了一个全新的测试工具——DeafTest，它专门用来测试多模态大模型的基础听觉能力。

不仅如此，研究团队还提出了首个全面的多模态大模型视听能力评估基准——AV-Odyssey。这一基准旨在推动未来 AI 模型在听觉、视觉的理解整合能力上迈向新高度。

论文链接：

https://arxiv.org/pdf/2412.02611

项目地址：

https://av-odyssey.github.io/

代码地址：

https://github.com/AV-Odyssey/AV-Odyssey

DeafTest：多模态大模型的‘听力盲点’

为了测试多模态大模型最基础的听觉能力，研究团队首先提出 DeafTest，该测试包括四项基础任务：

数音频中的声音次数
比较两个音频的响度
比较两个音频的音高
比较两个音频的时长

这些任务都被设计为对人类来说极其简单的判断题，差异明显，例如：

在响度比较任务中，一个音频的响度在 70-100 分贝之间，而另一个音频则在 30-60 分贝之间。

然而，测试结果却令人震惊——这些顶尖的 AI 模型在大多数任务中的表现，几乎与随机猜测无异，准确率和随机选择的 50% 差不多。这无疑暴露了多模态大模型在音频感知上的巨大短板。

AV-Odyssey Bench：全面评估多模态大模型的视听能力

为了更全面地评估 AI 在视听能力上的表现，研究团队还推出了一个全新的评估基准——AV-Odyssey。

AV-Odyssey 包含 26 个任务，覆盖了 7 种声音属性——音色、语调、旋律、空间感知、时序、幻觉、综合感知，并且跨越了 10 个不同领域，确保测试的深度和广度。

为了确保评估的稳健性和公正性，所有任务均采用四选一的多项选择题形式，每个问题都融合了视觉、听觉等多模态信息，全面考察模型的综合处理能力。此外，为了避免因输入顺序或格式导致的偏差，所有输入（包括文本、图片/视频和音频片段）都会以交错的方式输入到多模态大模型中。问题的形式如下图所示：

AV-Odyssey 中包含了由人类专家全新标注的 4555 个问题，确保题目没有在其他任何数据集中出现过，任务分布以及统计信息如下面图表所示：

同时，为了进一步控制质量，研究团队利用 5 个视觉语言模型和 4 个音频大语言模型，过滤出包含冗余图像或音频片段的问题。在这个过程中，2.54% 的问题同时被所有视觉语言模型或所有音频大语言模型解决，研究团队去除了这些问题。

AV-Odyssey 实验结果

从实验结果中，可以发现：

AV-Odyssey 的挑战性：大多数现有的多模态大语言模型平均表现仅略高于25%，这与四选一问题的随机猜测准确率相当。值得注意的是，即使是 AV-Odyssey 中的表现最佳的模型——GPT-4o，也仅取得了 34.5% 的准确率。这一结果凸显了 AV-Odyssey 所带来的高挑战性，远远超出了当前模型训练数据的分布范围。

通过设定严格的标准，AV-Odyssey 基准测试为评估多模态大模型在音频视觉任务中的能力提供了一个重要工具，突显了现有模型的局限性，并为未来的改进指明了方向。

开源多模态大模型训练的局限性：同时，即便 OneLLM、Unified-IO-2、VideoLLaMA2和 NExT-GPT 通过引入 Audiocaps 等音频-文本匹配数据集，尝试增强音频理解能力，并结合图像-文本配对数据训练视觉理解，这些模型在 AV-Odyssey 的测试中仍然表现不佳。

这表明，目前的训练流程并不足以真正弥合音频与视觉模态之间的鸿沟，也未能有效地学习音视频信息的整合与深度理解。

AV-Odyssey错误分析：音频感知仍是瓶颈

研究团队对 Gemini 1.5 Pro 在 AV-Odyssey 中的错误进行深入分析，对每个任务随机抽取了 4 个错误案例进行人工标注，最终得到 104 个错误案例，并对其进行统计。这些错误的分布如下图所示：

这一分析结果揭示了一个重要趋势：63% 的错误都集中在音频理解上！例如，在某些任务中，虽然模型正确理解了视觉信息，但是音频片段的内容识别错误，导致了错误答案的生成。一个例子如下图所示：

这一发现再次印证了 DeafTest 的初步结论：当前多模态大模型在基础的听力能力上存在明显短板，音频感知依然是多模态任务中的最大瓶颈。

更多的数据样例，请参考项目主页：

https://av-odyssey.github.io/

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉