导言
ECCV 2024 收录论文
本文的贡献包括:
1)设计自动标注流程构建了一个大规模多模态视频语言数据集PiTe-143k,该数据集提供了视频和描述文本中共同出现的所有物体的像素级细粒度移动轨迹;
2)通过在像素级别细粒度地将视觉和语言特征同时在空间和时间维度上进行对齐,提出了一个新颖的大型视频语言模型PiTe。
数据集构建
算法框架
实验结果
总结
PiTe模型基于所构建的PiTe-143数据集,通过学习视频描述文本中提到的目标物体在视频中的移动轨迹,能够细粒度地学习到文本到视觉像素级对齐信息,增强了其有依据地生成输出的能力。
实验结果验证了基于轨迹时空对齐训练方案的PiTe模型的视频细节和时空内容理解能力。
PiTe模型所具备的强大视频理解能力为后续具身智能的视觉感知工作提供了基础,其蕴含的物体移动轨迹信息也为设计新颖的视觉语言动作模型提供了新思路。
论文题目:PiTe: Pixel-Temporal Alignment for Large Video-Language Model
代码地址:https://github.com/yliu-cs/PiTe
作者:刘阳,丁鹏翔,黄思腾,张敏,赵晗,王东林*
西湖大学机器智能实验室招聘启事—博后、科研助理
一、课题组主要研究方向
西湖大学机器智能实验室(Machine Intelligence Laboratory, MiLAB)专注于强化学习和机器人具身智能领域研究,旨在赋予机器人像人一样的行为能力,实验室PI王东林博士担任国家科技创新2030重大项目负责人(首席科学家)。
针对强化学习效率低、通用策略学习难、强化策略和机器人耦合欠佳等问题,实验室深入研究了离线和迁移强化学习、模仿学习、人类反馈强化学习、机器人具身大模型及软硬件耦合,构建了一套机器人行为学习方法体系,发表了ICML、ICLR、NeurIPS、CVPR、RSS等人工智能和机器人顶会顶刊论文150余篇,授权十余项发明专利。
实验室主页:https://milab.westlake.edu.cn/。
近年来实验室团队主要来自于清华、浙大、上交大、南大、中科大、剑桥、帝国理工、CMU、UC Berkley、新加坡南洋理工等国内外知名高校。实验室2022年起牵头科技创新2030重大项目“面向人工通用智能的类脑强化学习”,因项目需要近期拟招聘博后、科研助理岗位。
二、招聘详情
岗位:博后、科研助理(2~3人)
招聘方向:类脑强化方向
岗位职责:
1. 负责类脑芯片的安装、使用,脉冲神经网络算法在芯片的部署、测试、验证;
2. 负责脉冲神经网络算法的研究,包括调研编程框架、将DNN算法转换位SNN算法、算法设计及训练。
应聘条件:
1. 要求熟悉Ubuntu系统及常用的终端使用命令,熟练掌握Python编程及编程工具Vscode,熟悉神经网络算法,具有一定的工程经验;
2. 要求熟悉Ubuntu系统、Python,具有优秀的英文读写能力(能熟练阅读相关英文文献),了解SNN编程框架且至少掌握一种(包括但不限于Spikingjelly、Snntorch等),熟悉神经网络和强化学习。具有一定的工程经验的优先考虑;
3. 对无人车或机器人有一定的了解。
三、岗位待遇
根据西湖大学相关规定以及申请人工作能力,实验室将提供具有竞争力的薪酬待遇以及科研条件,享受五险一金及西湖大学的相关福利。具体待遇面议。
四、应聘方式
1. 报名时间:长期招聘,有意应聘者请从速投递应聘材料。
2. 申请材料:请将个人简历发送至mi_lab@westlake.edu.cn。邮件标题请标明“应聘岗位+本人姓名”。对于符合要求并通过初审者,将会通知安排面试,三个月内没有收到面试通知者可自行放弃等待。
来 源 | 王东林实验室
撰 稿 | 刘阳
编 辑 | 冯晨希
校 对 | 苏凌菲
西湖大学工学院面向国家战略性新兴产业发展重大需求,着力建设交叉学科与新兴学科为特色的工程技术学科群,努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。工学院以国际高端人才为学科带头人构建科研团队,分阶段、分领域打造一流人才队伍。
工学院目前重点建设七大研究领域 (Programs)——人工智能与数据科学、生物医学工程、化学与生物工程、电子信息科学与技术、材料科学与工程、机械科学与工程、可持续发展与环境工程。围绕七大领域,工学院已建成一批高水平实验室和研究中心,其中已获批成立全省3D微纳加工和表征研究重点实验室、全省智能低碳生物合成重点实验室,培育建设浙江省海岸带环境与资源研究重点实验室,建立微纳光电系统集成浙江省工程研究中心。
扫描二维码 | 关注我们
西湖大学工学院
School of Engineering
Westlake University