引言
多模态大模型的出现引发了视觉-语言理解领域的重大范式转变。多模态大模型通过融合先进的视觉编码器与大语言模型,获得了优越的多模态感知和推理能力。为了全面地评估这些模型的能力,诸多图像/视频理解测试基准被构建出来。其中,视频理解测试基准上的测试结果表明,多模态大模型已经在视频理解任务上展现出了巨大潜力。
然而,现有视频理解测试基准主要依赖视频级问答评测模型表现,缺乏细粒度的事件级问答,这使得它们不足以反映模型在事件级视频时序理解任务上的能力。这使得我们不禁想问:1)现有多模态大模型在细粒度的事件级时序理解上是否能达到与视频级理解相似的表现;2)如果现有模型的时序理解能力不佳,应该如何进行有效地改进。
论文名:E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding
项目主页:https://polyu-chenlab.github.io/etbench/
论文链接:https://arxiv.org/abs/2409.18111
代码链接:https://github.com/PolyU-ChenLab/ETBench
简介
为了回答上述两个问题,我们首先引入了E.T. Bench (Event-Level and Time-Sensitive Video Understanding Benchmark),这是一个大规模,高质量,场景开放的事件级视频时序理解测试基准。E.T. Bench专注于长视频和多事件视频的细粒度时序理解。如下图所示,E.T. Bench由4个大类(指代、定位、密集视频描述和复杂理解),12个子类的时序理解任务组成。E.T. Bench通过从15个数据集中精心收集视频,涵盖8个领域下的 7K 个视频(总长度达251.4小时),从而确保场景的多样性和开放性。并且,我们通过全面仔细的数据清洗,标注重用,指令设计,人工验证和采样流程生成了7.8K个高质量的事件级时序理解问答对。
我们在E.T. Bench上测试了20个图像/视频多模态大模型,包括7个开源图像模型,9个开源视频模型和4个商业模型。结果表明,即使是最先进的多模态大模型,无论是开源还是闭源,都难以解决我们所关注的事件级时序理解任务,特别是在定位、密集视频描述和复杂理解任务上。
为了有效提升模型的事件级时序理解能力,我们进一步提出了E.T. Chat,一个新的时间敏感的视频多模态达模型,它通过定制的专家模块将时间戳预测重新形式化为嵌入匹配问题,并相应地构造了一个为多事件和时间敏感场景量身打造的指令微调数据集E.T. Instruct 164K。E.T. Bench上的全面比较证明了E.T. Chat结合E.T. Instruct 164K的有效性。并且,我们希望所提出的测试基准,模型和指令微调数据集能够激发未来对视频理解的进一步研究。
测试基准构建
E.T. Bench的构建流程从定义事件级细粒度时序理解的四个基本能力开始,即1)指代,2)定位,3)密集描述和4)复杂理解。然后,我们精心挑选和设计了一系列专门用于全面评估上述每个能力的任务,并为每个任务筛选了带有人工标注时间戳的现有数据集,并根据任务所需形式将其原始标注重写为适合大模型评估的指令跟随格式。此外,我们尽量挑选了来自不同领域的变长视频,确保E.T. Bench 的多样性。最后,进行完备的人工检查,过滤和采样,以删除不符合预期的样本,确保E.T. Bench的高质量。
E.T. Bench与现有数据集的对比:
E.T. Bench中的动词分布:
E.T. Bench中的名词分布:
方法与模型
下图展示了所提出的E.T. Chat的整体架构。给定在时刻采样的视频帧,首先利用视觉编码器将其转换为一系列视觉Patch特征,其中和分别是Patch数量和特征维度。为了保持高时间分辨率的视频帧输入,减少冗余计算以及不超出LLM的上下文长度限制,我们采用帧压缩器将视觉Patch集合压缩合并为单个特征,并投影得到最终输入LLM的视觉特征,其中是LLM的输入维度。最后,讲每个视频帧编码得到的集合与用户提问一起送入LLM里获取答案。
帧压缩器
如下图所示,帧压缩器由一个具有可学习的随机初始化的query 的Q-Former ,一个上下文聚合器和一个投影层组成。在每个时刻,接受视觉Patch特征和文本提示作为输入,通过注意力机制将与用户提问相关的视觉信息聚合到中。然后,通过交叉注意力将与压缩合并为单个特征并经过投影层后转换到与LLM相同的特征空间中。
通过特征匹配进行时间预测
E.T. Chat的关键创新点集中在时间预测方式的设计上。一方面,我们认为通过离散的Next Token Prediction直接生成连续时间信号(即时间戳)难以优化,特别在指令微调数据量级较小的学术场景下是次优的解决方案。另一方面,受到Transformer特性的启发,即它擅长进行选择性复制而非数值计算,我们提出将时间预测转化为特征匹配问题。换句话说,我们训练模型生成或复制它想要引用的视频帧的特征,并将这些特征匹配回视频来获得时间戳。
具体来说,我们定义了一个特殊token <vid>用于启动匹配过程,当模型在答案推理过程中认为要输出时间信息时,<vid>便会被生成并用于匹配视频帧特征,进而从匹配的帧索引中轻松获得所需的时间戳。例如,对于以1 FPS采样的视频,如果<vid>匹配到第i帧,则<vid>所携带的时间信息即视频的第i秒,整个匹配过程简单有效。
首先,将
然后,将获得的匹配帧索引乘以视频帧的采样率便可还原得到实际的时间戳。通过这一操作,时间戳的直接预测被形式化为特征匹配,这对擅长选择复制的Transformer来说更容易学习。
E.T. Instruct 164K 数据集
我们构造了E.T. Instruct 164K用于训练模型,如下表所示,它覆盖了来自14 个数据集的内容多样的事件级理解任务,包括时间定位、总结、亮点检测、密集描述和问答等。
实验
评价设置
E.T. Bench 中的不同任务具有不同的评价设置和多样的输出格式,单一指标(如准确率)不足以满足各类任务的需求。为了平衡指标数量和排名的简便性,我们对指代任务报告准确率,对定位任务报告F1分数,对密集视频描述任务报告F1分数和句子相似度,对复杂理解任务报告召回率。
评估结果
接下来,我们在 E.T. Bench上对现有多模态大模型进行了全面的评估和比较,包括7个开源图像模型,9个开源视频模型和4个闭源商业模型。结果如上表所示。其中,第一行的 Random 表示在各个任务上进行随机猜测的结果,用于进一步反映任务难度及现有模型时序理解能力偏弱的特点。
可以看到,得益于新提出的时间预测设计和搜集的指令微调数据集,E.T. Chat 在所有任务的平均性能上显著超过了现有的开源图像/视频模型,缩小了与先进的商业模型,如Gemini-1.5-Pro之间的差距。然而,我们依然需要注意的是,从指标的绝对值及实际样例表现看,现有模型的时序理解能力都有很大的可提升空间。因此,我们更希望能通过这个工作引起学术界及工业界对事件级视频时序理解任务的重视,对此进行深入的探究。
可视化
我们可视化了部分模型在部分任务上的回答内容作为对比。
总结
在本研究中,我们提出了E.T. Bench,这是一个面向多事件和时间敏感的视频-语言理解的大规模测试基准。该基准涵盖了多样化视频领域的广泛任务,评估了多模态大模型的多种能力。实验结果表明,现有模型设计和用于视频大模型的指令微调数据在时间戳表示和细粒度多事件建模能力方面存在局限性。为应对这些挑战,我们进一步开发了一种新模型E.T. Chat,并引入了一个包含164K条指令的多事件微调数据集E.T. Instruct 164K,作为该场景下的强大基线解决方案。我们希望提出的基准、模型和指令微调数据集能够激发未来在视频大模型领域的研究。