【学术前沿】杨勋,曾建明,汪萌等 | 基于跨模态对比表征学习的鲁棒视频问答

学术 2024-10-23 19:57 北京

CAA

智慧起航，共创未来

研究团队

杨勋：中国科学技术大学信息科学技术学院

曾建明：中国科学技术大学先进技术研究院&合肥综合性国家科学中心人工智能研究院

王姗姗：安徽大学物质科学与信息技术研究院

董建锋：浙江工商大学计算机科学与技术学院

郭丹、汪萌：合肥工业大学计算机与信息学院

文章下载

Xun YANG, Jianming ZENG, Dan GUO, Shanshan WANG, Jianfeng DONG & Meng WANG. Robust video question answering via contrastive cross-modality representation learning. Sci China Inf Sci, 2024, 67(10): 202104, doi: 10.1007/s11432-023-4084-6

研究意义

视频问答是一个具有挑战性且很重要的多媒体理解任务，其需要对底层的视觉内容和高层的文本语义进行综合理解，进而做出正确的决策。得益于其在室内机器人以及个人助理等应用场景中的潜力，视频问答任务在近几年多媒体和自然语言处理等领域的受到越来越多的研究关注。尽管该任务已取得一定的研究进展，但研究发现当前的视频问答系统存在过于依赖数据集中由数据偏见引发的伪关联关系的问题，忽视了对关键视频内容的理解，导致了不可靠的问答结果。因此，如何有效地理解并建模视频中的时序以及语义特性对于构建一个鲁棒的视频问答系统至关重要，但截止目前仍然缺乏足够的研究。

本文工作

基于上述考虑，本文提出了一种鲁棒的视频问答框架，旨在迫使模型能够更加有效地建模和利用视频时序语义以及综合理解文本和视觉信息，避免过于依赖统计关联信息，进而能够更好地进行跨模态推理，提升视频问答系统鲁棒性。

图1 本文提出的鲁棒视频问答框架示意图

如图1所示，首先，我们引入了一个自监督的对比学习项，通过对视频片段进行随机替换扰动来构建对比学习的正样本对，迫使模型在跨模态交互融合时更加关注视频的全局上下文信息，而不是某些静态关键帧。其次，我们设计了一个时序正则项，旨在让模型学习到的视频表征能够保留视频固有的序列结构特性。另外，我们设计了一个基于Kullback-Leibler散度的扰动不变正则项，可以约束答案分布对视频扰动的敏感度，旨在学习一个扰动不变的视频表征，进而提高模型对视频局部扰动的鲁棒性。最终，将以上所述一个对比学习项和两个正则项结合起来，用来辅助视频问答常规的基于交叉熵损失的优化项，进行模型训练。本文模型最终学习到的视频表征能够较好地保留视频事件的时序上下文信息，并对视频局部的扰动相对鲁棒，提升了视频问答的可靠性。

本文的创新点如下：

(1) 本文提出了一种有效地、能够兼容其他模型的视频问答框架，旨在迫使视频问答模型能够关注更重要的视频内容（比如动作、事件等），而不是过于依赖由数据集偏见导致的伪关联关系，从而进行更可靠的跨模态答案推理。

(2) 本文设计了三个简单且有效的学习目标项，可以容易地与现有的视频问答方法进行结合，较为明显地提升现有视频问答方法的鲁棒性。

(3) 本文在多个标准视频问答数据集上，利用4个视频问答方法，对本文所提出的策略的模型兼容性、有效性进行了较为充分的实验评估，验证了本文方法的有效性。

实验结果

本文在MSVD-QA、MSRVTT-QA、Traffic-QA和NExT-QA四个常用的视频问答数据集上对本文提出的方法进行了实验评估。

表1 在MSVD-QA和MSRVTT-QA数据集上进行实验性能对比

在两个开放式的问答数据集MSVD-QA和MSRVTT-QA上，本文采用Micro得分和Macro得分两个评估指标，可以在数据不平衡的条件下更好地对问答精确度进行评估。如表1所示，我们的方法可以较好地与4个现有的视频问答方法（HGA、IGV-B、CoMem和MSPAN）进行结合，在两个得分指标上都取得了稳定的提升。相比之下，本文的方法在Macro得分指标上，取得了更高的相对性能提升，显示了本文方法在不平衡问答数据集的有效性和稳定性。

表2 在Traffic-QA数据集上进行实验性能对比

如表2所示，在多选项的交通场景问答数据集Traffic-QA上，本文方法也取得了较好的性能提升，尤其是在归因（Attribution）子集上，我们的性能提升较为明显，反映我们的方法可以使模型更好地感知视频活动的因果关系，比如在回答“什么导致了此次事故？”此类问题上，表现优异。

表3 在NExT-QA数据集上进行实验性能对比

如表3所示，在多选项的NExT-QA数据集上，本文使用了两种不同的文本表征方式，我们观察到我们的方法在与HGA和MSPAN结合以后，在3个测试子集上均取得了较为明显的性能提升，反映了本文方法的有效性。

免责声明：

本文转载自其它媒体，转载目的在于传递和分享更多信息，并不代表本平台赞同其观点和对其真实性负责，版权归原作者所有，如有侵权请联系我们删除。

CAA会员服务长期征稿！

“CAA会员服务”面向广大学会会员广泛征稿

请将稿件投递至caa@ia.ac.cn

邮件主题为“会员号投稿+栏目名称+文章标题”。

投稿文章需为学会首发，或按照学会编辑格式转载。

END

内容来源|中国科学信息科学

编辑|高天慧

责任编辑|叩颖

点

阅读原文了解更多

点击在看分享出去吧！

http://mp.weixin.qq.com/s?__biz=MzUyODkzOTc3OQ==&mid=2247574217&idx=1&sn=4d4f69cea740b1af505c5af0dc9d7454

CAA会员服务

CAA会员服务，第一时间传播学会动态，服务会员。

【研途tips】Nature杂志：如何写出一篇一流的论文

【形势通报】教育部部长：稳定支持、长周期评价，支持高校青年教师开展高水平自由探索、非共识创新研究

【学术前沿】刘志卿,池荣虎,黄彪,侯忠生 | 非线性非仿射系统的有限时间PID控制

【形势通报】《人民日报》：让更多科技成果尽快转化为现实生产力

【观点】沈向洋院士：关于大模型的10个思考

【学术前沿】叠层模型驱动的书法文字识别方法研究

【研途tips】研究生论文开题，看这篇助攻～

【形势通报】科学技术普及法22年来首次修订！筑牢大国科普基石

【学术前沿】电子科大王子南团队 | 拉曼光纤随机激光器的时-谱域相关度演变研究

【理事单位】海洋机器人前沿技术中心科研团队发表无人帆船风帆研究综述文章

【学术前沿】上交大闵雄阔, 翟广涛等 | 视频感知质量评价综述

【形势通报】事关博士培养！一文了解博士研究生教育最新部署→

【行业解析】新质生产力解析：全景图+58大产业链图谱

【学术前沿】陈杰院士团队 | 联盟形成问题：以能力为中心的分析和通用模型

【参考消息】这笔钱涨了！速查国家助学贷款最新政策→

【发布】2025年人工智能十大趋势！最新预测→

【学术前沿】李莉莉,马丹等 | 基于切换Q学习事件触发的DoS攻击下切换系统反异步输出调节

【参考消息】2025年考研网上确认时间更新！

【观点】陈清泉院士：未来，汽车将不仅仅是交通工具

【学术前沿】外部干扰和随机DoS攻击下的网联车安全H∞ 队列控制

【参考消息】2024人工智能十大前沿技术趋势展望发布

【发布】502页！《斯坦福2024年人工智能指数报告》发布

【学术前沿】目标驱动的控制系统：从如何做到做什么

【形势通报】强化实践创新导向，专家解读我国首个博士专业学位研究生学位论文与申请学位实践成果质量标准

【学术前沿】北京科技大学王婕等 | 高超声速滑翔飞行器预定时间碰撞规避编队控制

【形势通报】基金委发文：目前约17%资助率过低，危害大，应提升至30~35%，增大青年、面上项目经费

【研途tips】数学家张益唐谈“如何找到愿意为之付出一生的研究事业”

【学术前沿】北京理工大学胡程团队 | 重轨星地双基地SAR层析成像

【观点】专访李德仁院士：2030年一起“玩”卫星

【形势通报】工信部等六部门部署开展2024年度智能工厂梯度培育行动

【学术前沿】高亚军,丛杨等 | 毫米级精度水下RGB-D成像系统（MOOP）

【参考消息】17年来首次重大调整！国务院总理主持，审议通过《国家自然科学基金条例（修订草案）》

【观点】院士谭铁牛通识第一课：人工智能水平即将全面超越人类？谣言！

【学术前沿】西电朱樟明课题组 | 使用极点优化技术的精度可配置Zoom型模数转换器设计

【参考消息】官宣：支持这些高校，进“双一流”！

【理事单位】首个知识与数据联合驱动的多物种生命基础大模型GeneCompass

【学术前沿】上海交通大学王贺升教授团队：基于目标检测和场景流估计联合优化的3D多目标跟踪

【参考消息】教育部：每年遴选一批40周岁以下的高校优秀青年教师，给予最长10年稳定支持

【形势通报】5类人工智能教育场景逐步普及

【学术前沿】杨勋,曾建明,汪萌等 | 基于跨模态对比表征学习的鲁棒视频问答

【形势通报】专家谈《关于加快推动博士研究生教育高质量发展的意见》：推动规模质量协调发展

【研途tips】2025硕士统考报名将于28日结束，考生还需关注这些事项

【学术前沿】欧洲科学院院士韩清龙教授团队 | 基于累计状态误差的事件触发机制

【观点】机器人会有意识？张钹院士：我认为估计过高了

【形势通报】科技部：把科普工作成效作为科技人才计划评审的重要参考

【学术前沿】基于多机制协同设计的低频超宽带波段吸波体

【形势通报】中共中央办公厅国务院办公厅印发《关于加快推动博士研究生教育高质量发展的意见》

【参考消息】科技部发布重点专项申报指南及项目正式申报书填报通知

【CAA赛事】2024年“中国智能车未来挑战赛”赛事指南

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉