ECCV 2024 Oral | 王东林实验室提出轨迹引导的时空对齐视频大模型

学术 2024-08-23 12:46 浙江

导言

ECCV 2024 收录论文

大型语言模型的发展进一步弥合了图像和文本之间的鸿沟，但视频复杂的时空数据结构特性使理解视频内容具有挑战。近期关于多模态大模型的相关研究工作通常将视觉数据（如图像）的特征对齐到语言特征的潜在空间中，以充分利用大模型的理解和推理能力。

通用大模型成功的关键在于如何有效地将大语言模型卓越的理解、推理和生成能力推广到更多场景。对于多模态视频理解而言，在空间和时间维度上对齐不同模态的信息至关重要。

图1. 大型视频语言模型训练范式比较

为了弥合不同模态间的鸿沟，本文提出了PiTe框架，它使用物体移动轨迹指导模型在像素级别细粒度地将视觉和语言特征同时在空间和时间维度上进行对齐。

如图1所示，通过向模型注入视频描述文本中提到的目标物体在视频中的移动轨迹，其可以细粒度地学习到文本到视觉像素级对齐信息，并且能够增强其有依据地生成输出的能力。为实现细粒度的视频语言跨模态对齐，本文设计自动标注流程并以此构建了一个多模态预训练数据集PiTe-143k，该数据集提供了视频和描述文本中共同出现的所有目标的像素级移动轨迹。

该论文被计算机视觉顶级会议ECCV 2024录用，并入选口头报告（Oral，比例不超过3%）。论文由王东林实验室博士生刘阳、丁鹏翔担任第一作者，王东林教授为通讯作者，西湖大学为通讯单位。

ECCV会议是世界顶级的计算机视觉三大顶级会议之一，录取论文代表了计算机视觉领域2024年最高的学术水平。2024年会议接收有效投稿8585篇，论文录取率为27.9%，其中口头报告比例不超过3%。会议定于2024年9月29日至10月4日在意大利米兰举行。

本文的贡献包括：

1）设计自动标注流程构建了一个大规模多模态视频语言数据集PiTe-143k，该数据集提供了视频和描述文本中共同出现的所有物体的像素级细粒度移动轨迹；

2）通过在像素级别细粒度地将视觉和语言特征同时在空间和时间维度上进行对齐，提出了一个新颖的大型视频语言模型PiTe。

数据集构建

图2. 数据自动标注流程

从图2中可以看出，PiTe-143k数据集（基于InternVid-10M-FLT数据集）的标注主要分为两个阶段。

第一阶段是引用语义分割，此阶段首先通过成分句法分析工具SuPar抽取出视频文本描述中所有的名词词组，再利用多模态大模型GLaMM依据这些词组获取到其在视频帧中的目标物体分割掩码。此阶段的目标是构建视频和语言间非常细粒度的联系。

第二阶段是物体点追踪，在第二阶段中使用全像素点追踪模型DOT根据上一阶段获取到的物体分割掩码追踪其在视频片段内的完整移动轨迹。此阶段的目标是将前一阶段构建的跨模态连接扩展出视频特有的时序维度。

算法框架

图3. 算法的框架

从图3中可以看出，PiTe模型框架主要包含视觉编码器、视觉适配器和大语言模型。其训练主要分为三个阶段。

第一阶段是引用表达定位，在大语言模型输出图像描述时使其通过定位映射器同时输出每个词元在图像中存在的位置坐标。这一阶段的目标是训练视觉适配器，使其能够将视觉特征与大语言模型的语义空间对齐。

第二阶段是像素时序对齐，与第一阶段训练方式类似，在大语言模型输出视频描述时使其通过轨迹映射器同时输出每个名词词组词元在视频中存在的位置坐标。此阶段的目标是训练大语言模型理解视频中的连续帧。

第三阶段是视频问答，此阶段按照指令微调范式训练模型，使其能够遵循人类的指令，以实现更准确和更具泛化的视频理解能力。

实验结果

图4. 视频问答实验对比结果

图5. 时序定位和密集描述实验对比结果

如图4、图5所示，本文在视频问答、时序定位和密集描述三个任务上进行了性能对比测试，PiTe模型均表现出了显著的性能优势，表明像素级细粒度的对齐方案能够有效地帮助大语言模型理解视频时空内容。

图6. 样例展示

如图6所示，PiTe模型不仅能够对询问指令给出精确的回答，而且还能够提供更加详细和准确的视频信息来丰富输出内容，而且拥有理解指令和捕捉事件的能力使其能够在视频中精确地界定事件时间边界。

总结

PiTe模型基于所构建的PiTe-143数据集，通过学习视频描述文本中提到的目标物体在视频中的移动轨迹，能够细粒度地学习到文本到视觉像素级对齐信息，增强了其有依据地生成输出的能力。

实验结果验证了基于轨迹时空对齐训练方案的PiTe模型的视频细节和时空内容理解能力。

PiTe模型所具备的强大视频理解能力为后续具身智能的视觉感知工作提供了基础，其蕴含的物体移动轨迹信息也为设计新颖的视觉语言动作模型提供了新思路。

论文题目：PiTe: Pixel-Temporal Alignment for Large Video-Language Model

代码地址：https://github.com/yliu-cs/PiTe

作者：刘阳，丁鹏翔，黄思腾，张敏，赵晗，王东林*

西湖大学机器智能实验室招聘启事—博后、科研助理

一、课题组主要研究方向

西湖大学机器智能实验室（Machine Intelligence Laboratory, MiLAB）专注于强化学习和机器人具身智能领域研究，旨在赋予机器人像人一样的行为能力，实验室PI王东林博士担任国家科技创新2030重大项目负责人（首席科学家）。

针对强化学习效率低、通用策略学习难、强化策略和机器人耦合欠佳等问题，实验室深入研究了离线和迁移强化学习、模仿学习、人类反馈强化学习、机器人具身大模型及软硬件耦合，构建了一套机器人行为学习方法体系，发表了ICML、ICLR、NeurIPS、CVPR、RSS等人工智能和机器人顶会顶刊论文150余篇，授权十余项发明专利。

实验室主页：https://milab.westlake.edu.cn/。

近年来实验室团队主要来自于清华、浙大、上交大、南大、中科大、剑桥、帝国理工、CMU、UC Berkley、新加坡南洋理工等国内外知名高校。实验室2022年起牵头科技创新2030重大项目“面向人工通用智能的类脑强化学习”，因项目需要近期拟招聘博后、科研助理岗位。

二、招聘详情

岗位：博后、科研助理（2~3人）

招聘方向：类脑强化方向

岗位职责:

1. 负责类脑芯片的安装、使用，脉冲神经网络算法在芯片的部署、测试、验证；

2. 负责脉冲神经网络算法的研究，包括调研编程框架、将DNN算法转换位SNN算法、算法设计及训练。

应聘条件：

1. 要求熟悉Ubuntu系统及常用的终端使用命令，熟练掌握Python编程及编程工具Vscode，熟悉神经网络算法，具有一定的工程经验；

2. 要求熟悉Ubuntu系统、Python，具有优秀的英文读写能力（能熟练阅读相关英文文献），了解SNN编程框架且至少掌握一种（包括但不限于Spikingjelly、Snntorch等），熟悉神经网络和强化学习。具有一定的工程经验的优先考虑；

3. 对无人车或机器人有一定的了解。

三、岗位待遇

根据西湖大学相关规定以及申请人工作能力，实验室将提供具有竞争力的薪酬待遇以及科研条件，享受五险一金及西湖大学的相关福利。具体待遇面议。

四、应聘方式

1. 报名时间：长期招聘，有意应聘者请从速投递应聘材料。

2. 申请材料：请将个人简历发送至mi_lab@westlake.edu.cn。邮件标题请标明“应聘岗位+本人姓名”。对于符合要求并通过初审者，将会通知安排面试，三个月内没有收到面试通知者可自行放弃等待。

来源 | 王东林实验室

撰稿 | 刘阳

编辑 | 冯晨希

校对 | 苏凌菲

西湖大学工学院面向国家战略性新兴产业发展重大需求，着力建设交叉学科与新兴学科为特色的工程技术学科群，努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。工学院以国际高端人才为学科带头人构建科研团队，分阶段、分领域打造一流人才队伍。

工学院目前重点建设七大研究领域 (Programs)——人工智能与数据科学、生物医学工程、化学与生物工程、电子信息科学与技术、材料科学与工程、机械科学与工程、可持续发展与环境工程。围绕七大领域，工学院已建成一批高水平实验室和研究中心，其中已获批成立全省3D微纳加工和表征研究重点实验室、全省智能低碳生物合成重点实验室，培育建设浙江省海岸带环境与资源研究重点实验室，建立微纳光电系统集成浙江省工程研究中心。

扫描二维码｜关注我们

西湖大学工学院

School of Engineering

Westlake University

http://mp.weixin.qq.com/s?__biz=MzkwODIzNDAwNA==&mid=2247496194&idx=1&sn=1058cf20a2c9687489231ddb67399e80

西湖大学工学院SOE

西湖大学工学院致力于面向国家战略性新型产业发展重大需求的科技创新和人才培养，建立交叉学科与新兴学科为特色的应用科学、工程技术学科群，建成国家重大科学技术研究和拔尖创新人才培养的重要基地。

这项“盖章”新技术，AI很喜欢

这篇新闻的作者，非人类

Nature发表西湖大学姜汉卿实验室关于智能触觉模拟的最新合作研究成果

千分之二！西湖大学工学院博士生获人工智能顶会大奖

西湖大学工学院柳佃义课题组研究进展 | 聚合物半导体薄膜与细菌杂化的人工生物叶片

官宣！姜汉卿获奖

明日启幕 | NLPCC 2024 Call for Registration

关于召开2024中德新能源、新材料及生物智造论坛的通知（第二轮）

图灵奖得主：AI时代，我们还能教学生什么 | 西湖笔记

ECCV 2024 Oral | 西湖大学工学院袁鑫实验室提出首个低位量化的视频单曝光压缩成像重建框架

西湖大学工学院人工智能系19篇论文被国际学术会议NeurIPS 2024录用

西湖大学工学院人工智能系多篇论文被国际学术会议EMNLP 2024录用

观众报名 | Michael Graetzel教授作客第11期西湖云谷论坛Yungu Lectureship

冻土孔隙中物质运输的“高速公路” | 西湖大学工学院雷亮团队研究进展

论坛预告 | 请你来听，一个世界中的上千个世界

ECCV 2024现场 | 西湖大学工学院人工智能系4篇Oral，其中2篇入选Best Paper Finalist

西湖大学工学院30位教授入选2024年全球前2%顶尖科学家榜单

西湖大学工学院Thomas Wanger团队探讨纳米/微米塑料污染对农业景观中昆虫生态服务和粮食安全的跨层次影响

Cell Press×西湖大学工学院系列研讨会收官 | 重磅嘉宾演讲精彩回顾

首发！“西湖制造”实现AR眼镜关键技术突破

西湖大学工学院仇旻团队研究进展 | 范德华接触体系中实现高精度光学微操控

免费注册&直播预约 | Cell Press携手西湖大学工学院、光电研究院举办“通信和传感设备”研讨会

二氧化碳=食物、燃料、脑黄金？这场大会带你一探究竟

ECCV 2024 Oral | 杨林团队&林涛团队提出最大规模、专家验证的高质量病理大模型测试基准数据集PathMMU

西湖大学讲席教授Marco Amabili获评美国机械工程师学会荣誉会士

ECCV 2024 Oral | 袁鑫实验室提出隐式扩散先验增强的深度展开网络

西湖大学工学院张越团队研究进展｜合成聚多肽精准阻断TLR9与免疫复合物多价作用抑制炎症反应

西湖大学工学院李文彬团队&李子青团队：分子模拟与人工智能揭示四肽与五肽全序列空间内短肽聚集规律

关于召开2024中德新能源、新材料及生物智造论坛的通知（第一轮）

全球工科大佬聚首，AI成了他们跨学科的共同语言

免费注册 | Cell Press携手西湖大学工学院、西湖大学光电研究院举办“通信和传感设备”研讨会

ACM MM 2024 Oral | MAPLE实验室提出图像定制化算法Equilibrate Diffusion

录取率4.2% | 人工智能背后的年轻大脑在思考什么

西湖大学工学院姜汉卿团队开发新型动态三维超表面及柔性触觉界面

西湖大学工学院2025年博士研究生招生简章

ECCV 2024 Oral | 王东林实验室提出轨迹引导的时空对齐视频大模型

会议日程发布 | 关于召开第二届中国一碳生物技术和低碳产业发展大会的通知（第三轮）

光学-电化学耦合分析方法量化电荷储存动力学 | 西湖大学工学院陆启阳课题组研究进展

西湖大学工学院鞠峰团队在缺氧潮间带含水层发现氨氧化古菌新属Candidatus Nitrosomaritimum

腾讯杰出科学家郑冶枫全职加入西湖大学主攻医学人工智能

西湖大学工学院携手Cell Press首场物质科学研讨会成功举办 | 重磅嘉宾演讲精彩回顾

Yungu Lectureship第十期精彩回顾 | 再生材料与聚合物生命周期控制

西湖大学人工智能方向6篇论文被国际学术会议ACM MM 2024录用

西湖大学工学院向宇轩团队研究进展 | 多层级修饰策略提高钠离子层状氧化物正极电化学循环稳定性

“三言” 回顾 | 首届长三角工科研究生学术展示大赛

录取率4.2%｜西湖大学人工智能暑期公开课，没抢到的看过来

西湖大学国际力学生物学研讨会开放注册

Yungu Lectureship第八期精彩回顾 | 生物医学纳米技术——影像引导和机器人手术的新机遇

欧洲计算机视觉国际会议ECCV 2024收录西湖大学工学院最新成果

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉