GPT-4其实根本听不懂声音?港中文、斯坦福等联合打造视觉听觉评估新基准

科技   2024-12-17 08:04   北京  


多模态大模型在听觉上,居然也出现了 ‘9.11>9.8’ 的现象?!


在人工智能领域,我们一直以为顶尖的多模态大模型已经无所不能。其中 GPT-4o 在 ASR(音频转文字)任务上取得了 97% 的正确率更是凸显了强大的音频理解能力。


然而,最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core 等最先进的多模态大模型居然无法正确分辨明显不同的声音大小!


下面是一个例子:

音频1:
音频2:

结果让人难以置信:这些顶尖的 AI 模型都未能准确判断出音量的差异!对于人类来说,这种问题简直是“傻瓜级”任务,然而这些大模型却纷纷失手,暴露出其在基本听觉能力上的严重缺陷。


这一发现激发了研究团队的思考:为什么如此先进的模型在听觉辨识方面如此薄弱?为了填补这一空白,研究团队首度提出了一个全新的测试工具——DeafTest,它专门用来测试多模态大模型的基础听觉能力。


不仅如此,研究团队还提出了首个全面的多模态大模型视听能力评估基准——AV-Odyssey。这一基准旨在推动未来 AI 模型在听觉、视觉的理解整合能力上迈向新高度。

论文链接:
https://arxiv.org/pdf/2412.02611

项目地址:

https://av-odyssey.github.io/

代码地址:

https://github.com/AV-Odyssey/AV-Odyssey



DeafTest:多模态大模型的‘听力盲点’

为了测试多模态大模型最基础的听觉能力,研究团队首先提出 DeafTest,该测试包括四项基础任务:
  • 数音频中的声音次数

  • 比较两个音频的响度

  • 比较两个音频的音高

  • 比较两个音频的时长

这些任务都被设计为对人类来说极其简单的判断题,差异明显,例如:

  • 在响度比较任务中,一个音频的响度在 70-100 分贝之间,而另一个音频则在 30-60 分贝之间。

然而,测试结果却令人震惊——这些顶尖的 AI 模型在大多数任务中的表现,几乎与随机猜测无异,准确率和随机选择的 50% 差不多。这无疑暴露了多模态大模型在音频感知上的巨大短板。



AV-Odyssey Bench:全面评估多模态大模型的视听能力

为了更全面地评估 AI 在视听能力上的表现,研究团队还推出了一个全新的评估基准——AV-Odyssey。


AV-Odyssey 包含 26 个任务,覆盖了 7 种声音属性——音色、语调、旋律、空间感知、时序、幻觉、综合感知,并且跨越了 10 个不同领域,确保测试的深度和广度。

为了确保评估的稳健性和公正性,所有任务均采用四选一的多项选择题形式,每个问题都融合了视觉、听觉等多模态信息,全面考察模型的综合处理能力。此外,为了避免因输入顺序或格式导致的偏差,所有输入(包括文本、图片/视频和音频片段)都会以交错的方式输入到多模态大模型中。问题的形式如下图所示:

AV-Odyssey 中包含了由人类专家全新标注的 4555 个问题,确保题目没有在其他任何数据集中出现过,任务分布以及统计信息如下面图表所示:

同时,为了进一步控制质量,研究团队利用 5 个视觉语言模型和 4 个音频大语言模型,过滤出包含冗余图像或音频片段的问题。在这个过程中,2.54% 的问题同时被所有视觉语言模型或所有音频大语言模型解决,研究团队去除了这些问题。



AV-Odyssey 实验结果

从实验结果中,可以发现:


AV-Odyssey 的挑战性:大多数现有的多模态大语言模型平均表现仅略高于25%,这与四选一问题的随机猜测准确率相当。值得注意的是,即使是 AV-Odyssey 中的表现最佳的模型——GPT-4o,也仅取得了 34.5% 的准确率。这一结果凸显了 AV-Odyssey 所带来的高挑战性,远远超出了当前模型训练数据的分布范围。


通过设定严格的标准,AV-Odyssey 基准测试为评估多模态大模型在音频视觉任务中的能力提供了一个重要工具,突显了现有模型的局限性,并为未来的改进指明了方向。


开源多模态大模型训练的局限性:同时,即便 OneLLM、Unified-IO-2、VideoLLaMA2和  NExT-GPT 通过引入 Audiocaps 等音频-文本匹配数据集,尝试增强音频理解能力,并结合图像-文本配对数据训练视觉理解,这些模型在 AV-Odyssey 的测试中仍然表现不佳。


这表明,目前的训练流程并不足以真正弥合音频与视觉模态之间的鸿沟,也未能有效地学习音视频信息的整合与深度理解。



AV-Odyssey错误分析:音频感知仍是瓶颈

研究团队对 Gemini 1.5 Pro 在 AV-Odyssey 中的错误进行深入分析,对每个任务随机抽取了 4 个错误案例进行人工标注,最终得到 104 个错误案例,并对其进行统计。这些错误的分布如下图所示:

这一分析结果揭示了一个重要趋势:63% 的错误都集中在音频理解上!例如,在某些任务中,虽然模型正确理解了视觉信息,但是音频片段的内容识别错误,导致了错误答案的生成。一个例子如下图所示:

这一发现再次印证了 DeafTest 的初步结论:当前多模态大模型在基础的听力能力上存在明显短板,音频感知依然是多模态任务中的最大瓶颈。


更多的数据样例,请参考项目主页:

https://av-odyssey.github.io/



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
 最新文章