党吉圣,郑慧诚,赖剑煌等 | 基于逐帧和逐段时空交互记忆网络的高效视频目标分割

文摘科技 2024-12-15 12:02 北京

文章下载

党吉圣, 郑慧诚, 王笔美, 李俊成, 丁恒辉, 赖剑煌. 基于逐帧和逐段时空交互记忆网络的高效视频目标分割. 中国科学：信息科学, 2024, doi: 10.1360/SSI-2024-0187

研究意义

视频目标分割（Video Object Segmentation, VOS）是一项旨在自动分割视频中目标的核心任务，广泛应用于视频编辑、机器人导航、自动驾驶等领域。然而，现有方法在处理复杂视频场景时面临诸多挑战，例如目标遮挡、相似目标混淆、动态背景干扰等问题，导致分割精度和效率受限。为了解决上述问题，本文提出了一种新型逐帧和逐段时空交互记忆网络（FSSTIM），通过整合多粒度时空上下文信息，提升了目标分割的准确性和鲁棒性，同时保持了实时的计算效率。这项研究为解决视频分割中的复杂场景提供了全新思路，具有重要的应用价值。

本文工作

本文提出了一种基于逐帧和逐段时空交互记忆的高效视频目标分割方法，其核心创新包括以下几点：在逐帧和逐段时空交互记忆构建模块中，引入时空上下文图网络，提取视频中逐段全局时空记忆特征图，与逐帧记忆特征图进行交互增强。构建了一个信息丰富的逐段时空记忆组和增强的逐帧记忆组，提升了对目标遮挡和相似表观目标的处理能力。提出了一种动态采样记忆读取策略，结合不同粒度的采样窗口，能够从局部和全局视野中高效提取关键历史信息。在显著提升分割性能的同时，减少了计算冗余，显著提升了推理速度。FSSTIM 作为即插即用模块，可轻松集成到现有 VOS 方法中，进一步提升其性能和泛化能力。

本文的创新点如下：

(1) 引入逐段时空记忆模块，显著提升了目标分割在复杂场景下的鲁棒性。

(2) 动态采样机制有效结合了细粒度和粗粒度的信息捕捉策略，平衡了速度与精度。

(3) 在多目标场景中，通过多尺度匹配与增强操作实现了更优异的分割性能。

图 1 基于逐帧和逐段时空交互记忆网络的视频目标分割整体框架

实验结果

本文方法在多个主流数据集上进行了广泛验证，取得了卓越的表现：在 DAVIS、YouTube-VOS 和 MOSE 数据集上，分割准确性均超越现有方法，尤其在复杂场景中对遮挡目标和相似目标的分割能力表现优异。实验结果显示，FSSTIM 在保持实时推理速度的同时，实现了显著的分割精度提升。在消融实验中，FSSTIM 的逐帧与逐段交互模块和动态采样策略在分割性能和效率上均展示了显著优势。

图 2 在严重遮挡和相似实例的复杂场景下的结果比较

中国科学信息科学

《中国科学：信息科学》及其英文版《Science China Information Sciences》的宣传平台。

最新文章

朱若澜,李晨,李学龙等 | 自主水下航行器多分支网络光学导引定位方法

SCIS专题 | 多模态大模型（英文版）

武汉大学马佳义团队 | 基于多重感受野交融网络的偏振三维重建

尤肖虎院士观点 | When AI meets sustainable 6G

赵志甲,贺威,陈俊龙等 | 考虑输入约束和全局预设性能的两自由度直升机系统自适应神经网络控制

山东大学余国先团队 | 个性化联邦小样本节点分类：基于参数解耦与节点增强的联邦学习

SCIS会议 | 第58次《中国科学：信息科学》前沿学术沙龙

钱锋院士观点 | 人工智能赋能的化工新材料设计

《中国科学：信息科学》祝您新年快乐！

张翠娟,纪良浩,李华青等 | 事件触发和优先经验回放的多智能体系统最优一致控制

张笑钦,范登平,肖国宝等 | COMPrompter：多提示重构SAM的伪装目标检测

申晨,Jun Tanimoto,王震等 | 退出机制促进亲社会惩罚，但非一劳永逸的解决方案

2024年第12期目录 | SCIENCE CHINA Information Sciences

征稿启事 | 大规模智能体系统的平均场博弈与控制：从理论到实践（英文版）

东南大学虞文武团队 | 求解大规模混合整数规划问题的分布式算法架构

中科大李厚强&字节跳动联合团队 | DocPedia：高分辨率多模态文档大模型

征稿启事 | 太赫兹无线通信技术创新与应用专题（英文版）

张晏,冀中,庞彦伟,韩军功,李学龙 | 模态专家协调的多模态大模型参数高效微调方法

《中国科学: 信息科学》2024年第12期目录

中科大陈恩红团队 | Woodpecker: 多模态大语言模型的幻觉缓解方法

电子科技大学白天,肖鸣宇 | 超图上最大独立集问题的精确算法

左明成,巩敦卫 | 深度嵌入适应度评估分配策略的约束多目标进化优化方法

张笑钦,黄自玮,郑晶晶等 | DcnnGrasp：采用自适应学习方式的抓取手势识别

OCRBench：多模态大模型中隐藏的OCR奥秘

华为吴建军, 孙黎, 王东晖等 | 面向6G网络的内生安全架构和关键技术思考

王巍院士团队 | 面向多源自主导航的智能学习方法研究

党吉圣,郑慧诚,赖剑煌等 | 基于逐帧和逐段时空交互记忆网络的高效视频目标分割

王常虹,余旭东,王震等 | 基于集成后继表征的离线到在线任务泛化

上海交通大学&苏州实验室联合团队 | ChemDFM-X：跨模态化学材料大模型

大连理工大学赵楠等 | 智能通感一体化综述

华中师范大学杨宗凯团队 | COMET：用于数学题目生成的教育领域多模态模型

重庆邮电大学胡林,刘锡炎,齐倩等 | 可重构智能表面辅助多用户NOMA网络鲁棒安全资源分配

RISTA前沿大讲堂 | 可编程超表面赋能感知与通信-空军工程大学许河秀教授

丁瑞森,杨飞生,潘泉,等 | 混合攻击下基于带宽感知型事件触发机制的负荷频率控制

李群,肖甫,Bir Bhanu等 | PS-CoT-Adapter：先计划后求解的科学问答任务解决方法

姜霞,孙健,陈杰等 | 求解非光滑优化问题的随机重排采样近似梯度算法

24个领域97万条指令！MMInstruct：具备丰富多样性的高质量多模态指令调优数据集

北京大学刘譞哲金鑫等 | 万卡深度学习集群中的高效GPU共享系统

招聘科技期刊编辑 |《中国科学》杂志社

西南交通大学庞琦珂, 马征, 唐小虎 | 新一代非易失性存储器下的LDPC硬译码算法

林达华,乔宇,代季峰联合团队 | 我们距离GPT-4V还有多远？使用开源套件弥合与商用多模态模型的差距

中国科学院自动化所程龙团队 | 动态系统辅助机器人学习周期性操作技能

吴小太,唐漾等 | 驻留时间信息不可用的半马尔可夫跳跃线性系统的稳定性分析与镇定

贾茹茹,宗小峰,王庆 | 具有多领导者和乘性噪声的高阶多智能体系统时变编队跟踪控制

山东科技大学张焕水团队 | 基于最优控制的优化方法

【活动通知】庆祝中华人民共和国成立75周年暨共绘AI大模型创新蓝图峰会

东南大学孙伟锋课题组 | P型沟道氮化镓晶体管的衬底偏置效应研究

SCIS会议 | 第57次《中国科学：信息科学》前沿学术沙龙

吕思宇,吴臻,熊捷 | 混合随机系统的零和脉冲博弈

《中国科学: 信息科学》2024年第11期目录

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉