ECCV 2024 Oral | 王东林实验室提出轨迹引导的时空对齐视频大模型

学术   2024-08-23 12:46   浙江  

导言

ECCV 2024 收录论文


大型语言模型的发展进一步弥合了图像和文本之间的鸿沟,但视频复杂的时空数据结构特性使理解视频内容具有挑战。近期关于多模态大模型的相关研究工作通常将视觉数据(如图像)的特征对齐到语言特征的潜在空间中,以充分利用大模型的理解和推理能力。
通用大模型成功的关键在于如何有效地将大语言模型卓越的理解、推理和生成能力推广到更多场景。对于多模态视频理解而言,在空间和时间维度上对齐不同模态的信息至关重要。

图1. 大型视频语言模型训练范式比较

为了弥合不同模态间的鸿沟,本文提出了PiTe框架使用物体移动轨迹指导模型在像素级别细粒度地将视觉和语言特征同时在空间和时间维度上进行对齐
如图1所示,通过向模型注入视频描述文本中提到的目标物体在视频中的移动轨迹,其可以细粒度地学习到文本到视觉像素级对齐信息,并且能够增强其有依据地生成输出的能力。为实现细粒度的视频语言跨模态对齐,本文设计自动标注流程并以此构建了一个多模态预训练数据集PiTe-143k,该数据集提供了视频和描述文本中共同出现的所有目标的像素级移动轨迹。
该论文被计算机视觉顶级会议ECCV 2024录用,并入选口头报告(Oral,比例不超过3%)。论文由王东林实验室博士生刘阳、丁鹏翔担任第一作者,王东林教授为通讯作者,西湖大学为通讯单位。
ECCV会议是世界顶级的计算机视觉三大顶级会议之一,录取论文代表了计算机视觉领域2024年最高的学术水平。2024年会议接收有效投稿8585篇,论文录取率为27.9%,其中口头报告比例不超过3%。会议定于2024年9月29日至10月4日在意大利米兰举行。

本文的贡献包括:


1)设计自动标注流程构建了一个大规模多模态视频语言数据集PiTe-143k,该数据集提供了视频和描述文本中共同出现的所有物体的像素级细粒度移动轨迹;


2)通过在像素级别细粒度地将视觉和语言特征同时在空间和时间维度上进行对齐,提出了一个新颖的大型视频语言模型PiTe。

数据集构建

图2. 数据自动标注流程
从图2中可以看出,PiTe-143k数据集(基于InternVid-10M-FLT数据集)的标注主要分为两个阶段。
第一阶段是引用语义分割,此阶段首先通过成分句法分析工具SuPar抽取出视频文本描述中所有的名词词组,再利用多模态大模型GLaMM依据这些词组获取到其在视频帧中的目标物体分割掩码。此阶段的目标是构建视频和语言间非常细粒度的联系。
第二阶段是物体点追踪,在第二阶段中使用全像素点追踪模型DOT根据上一阶段获取到的物体分割掩码追踪其在视频片段内的完整移动轨迹。此阶段的目标是将前一阶段构建的跨模态连接扩展出视频特有的时序维度。

算法框架

图3. 算法的框架
从图3中可以看出,PiTe模型框架主要包含视觉编码器、视觉适配器和大语言模型。其训练主要分为三个阶段。
第一阶段是引用表达定位,在大语言模型输出图像描述时使其通过定位映射器同时输出每个词元在图像中存在的位置坐标。这一阶段的目标是训练视觉适配器,使其能够将视觉特征与大语言模型的语义空间对齐。
第二阶段是像素时序对齐,与第一阶段训练方式类似,在大语言模型输出视频描述时使其通过轨迹映射器同时输出每个名词词组词元在视频中存在的位置坐标。此阶段的目标是训练大语言模型理解视频中的连续帧。
第三阶段是视频问答,此阶段按照指令微调范式训练模型,使其能够遵循人类的指令,以实现更准确和更具泛化的视频理解能力。

实验结果

图4. 视频问答实验对比结果

图5. 时序定位和密集描述实验对比结果

如图4、图5所示,本文在视频问答、时序定位和密集描述三个任务上进行了性能对比测试,PiTe模型均表现出了显著的性能优势,表明像素级细粒度的对齐方案能够有效地帮助大语言模型理解视频时空内容。

图6. 样例展示

如图6所示,PiTe模型不仅能够对询问指令给出精确的回答,而且还能够提供更加详细和准确的视频信息来丰富输出内容,而且拥有理解指令和捕捉事件的能力使其能够在视频中精确地界定事件时间边界。

总结

PiTe模型基于所构建的PiTe-143数据集,通过学习视频描述文本中提到的目标物体在视频中的移动轨迹,能够细粒度地学习到文本到视觉像素级对齐信息,增强了其有依据地生成输出的能力。


实验结果验证了基于轨迹时空对齐训练方案的PiTe模型的视频细节和时空内容理解能力。


PiTe模型所具备的强大视频理解能力为后续具身智能的视觉感知工作提供了基础,其蕴含的物体移动轨迹信息也为设计新颖的视觉语言动作模型提供了新思路。



论文题目:PiTe: Pixel-Temporal Alignment for Large Video-Language Model

代码地址:https://github.com/yliu-cs/PiTe

作者:刘阳,丁鹏翔,黄思腾,张敏,赵晗,王东林*


西湖大学机器智能实验室招聘启事—博后、科研助理


一、课题组主要研究方向


西湖大学机器智能实验室(Machine Intelligence Laboratory, MiLAB)专注于强化学习和机器人具身智能领域研究,旨在赋予机器人像人一样的行为能力,实验室PI王东林博士担任国家科技创新2030重大项目负责人(首席科学家)。


针对强化学习效率低、通用策略学习难、强化策略和机器人耦合欠佳等问题,实验室深入研究了离线和迁移强化学习、模仿学习、人类反馈强化学习、机器人具身大模型及软硬件耦合,构建了一套机器人行为学习方法体系,发表了ICML、ICLR、NeurIPS、CVPR、RSS等人工智能和机器人顶会顶刊论文150余篇,授权十余项发明专利。


实验室主页:https://milab.westlake.edu.cn/


近年来实验室团队主要来自于清华、浙大、上交大、南大、中科大、剑桥、帝国理工、CMU、UC Berkley、新加坡南洋理工等国内外知名高校。实验室2022年起牵头科技创新2030重大项目“面向人工通用智能的类脑强化学习”,因项目需要近期拟招聘博后、科研助理岗位。


二、招聘详情


岗位:博后、科研助理(2~3人)

招聘方向:类脑强化方向

岗位职责:

1. 负责类脑芯片的安装、使用,脉冲神经网络算法在芯片的部署、测试、验证;

2. 负责脉冲神经网络算法的研究,包括调研编程框架、将DNN算法转换位SNN算法、算法设计及训练。

应聘条件:

1. 要求熟悉Ubuntu系统及常用的终端使用命令,熟练掌握Python编程及编程工具Vscode,熟悉神经网络算法,具有一定的工程经验;

2. 要求熟悉Ubuntu系统、Python,具有优秀的英文读写能力(能熟练阅读相关英文文献),了解SNN编程框架且至少掌握一种(包括但不限于Spikingjelly、Snntorch等),熟悉神经网络和强化学习。具有一定的工程经验的优先考虑;

3. 对无人车或机器人有一定的了解。


三、岗位待遇

根据西湖大学相关规定以及申请人工作能力,实验室将提供具有竞争力的薪酬待遇以及科研条件,享受五险一金及西湖大学的相关福利。具体待遇面议。


四、应聘方式

1. 报名时间:长期招聘,有意应聘者请从速投递应聘材料。

2. 申请材料:请将个人简历发送至mi_lab@westlake.edu.cn。邮件标题请标明“应聘岗位+本人姓名”。对于符合要求并通过初审者,将会通知安排面试,三个月内没有收到面试通知者可自行放弃等待。

 来 源  | 王东林实验室

 撰 稿  | 刘阳

 编 辑  | 冯晨希

 校 对  | 苏凌菲

 

西湖大学工学院面向国家战略性新兴产业发展重大需求,着力建设交叉学科与新兴学科为特色的工程技术学科群,努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。工学院以国际高端人才为学科带头人构建科研团队,分阶段、分领域打造一流人才队伍。


工学院目前重点建设七大研究领域 (Programs)——人工智能与数据科学、生物医学工程、化学与生物工程、电子信息科学与技术、材料科学与工程、机械科学与工程、可持续发展与环境工程围绕七大领域,工学院已建成一批高水平实验室和研究中心,其中已获批成立全省3D微纳加工和表征研究重点实验室、全省智能低碳生物合成重点实验室,培育建设浙江省海岸带环境与资源研究重点实验室,建立微纳光电系统集成浙江省工程研究中心。

扫描二维码 | 关注我们

西湖大学工学院

School of Engineering

Westlake University


西湖大学工学院SOE
西湖大学工学院致力于面向国家战略性新型产业发展重大需求的科技创新和人才培养,建立交叉学科与新兴学科为特色的应用科学、工程技术学科群,建成国家重大科学技术研究和拔尖创新人才培养的重要基地。
 最新文章