【视频专栏】联合深度超参数卷积和交叉关联注意力的大位移光流估计

文摘   科技   2024-05-10 16:16   北京  

点击上方蓝字关注我们


王梓歌, 葛利跃, 陈震, 张聪炫, 王子旭, 舒铭奕. 联合深度超参数卷积和交叉关联注意力的大位移光流估计. 自动化学报, 2024, 50(6): 1−15

1

摘要

      针对现有深度学习光流估计模型在大位移场景下的准确性和鲁棒性问题, 本文提出了一种联合深度超参数卷积和交叉关联注意力的图像序列光流估计方法. 首先, 通过联合深层卷积和标准卷积构建深度超参数卷积以替代普通卷积, 提取更多特征并加快光流估计网络训练的收敛速度, 在不增加网络推理量的前提下提高光流估计的准确性; 然后, 设计基于交叉关联注意力的特征提取编码网络, 通过叠加注意力层数获得更大的感受野, 以提取多尺度长距离上下文特征信息, 增强大位移场景下光流估计的鲁棒性; 最后, 采用金字塔残差迭代模型构建联合深度超参数卷积和交叉关联注意力的光流估计网络, 提升光流估计的整体性能. 分别采用MPI-Sintel和KITTI测试图像集对本文方法和现有代表性光流估计方法进行综合对比分析, 实验结果表明本文方法取得了较好的光流估计性能, 尤其在大位移场景下具有更好的估计准确性与鲁棒性.


2

引言

光流是指图像序列中运动目标或场景表面像素点的二维运动矢量, 其不仅提供了图像中运动目标和场景的运动参数, 还携带了丰富的结构信息. 因此, 图像序列光流估计技术研究是图像处理与计算机视觉领域的研究热点, 研究成果被广泛应用于人体姿态估计[1]、目标跟踪[2]、三维重建[3]、动作识别[4]和表情识别[5-6] 等更高级的视觉任务.

光流估计的目的是找到同一像素点在连续两帧图像序列变化过程中的对应匹配关系, 从而估计出该像素点的运动大小和方向. 自Horn和Schunck[7]开创性的将光流估计表述为能量最小化问题以来, 出现了许多有效的方法[8-10] 来提高光流估计的性能. 传统方法将光流估计视作一对图像间稠密位移场空间上的手工优化问题. 首先利用视觉相似图像区域对齐的数据项和对运动合理性施加先验正则的平滑项构建经典能量函数, 然后通过最小化能量方程以获取光流估计最优解. 虽然这种方法可以有效提升光流估计的准确性, 但是由于难以设计出对各种情况都具有鲁棒性的优化目标, 因而制约了其进一步发展与在工程领域的应用.

得益于深度学习理论和技术的突破性发展, 目前基于深度学习的光流估计方法已经在估计精度、鲁棒性以及推理时间方面全面超越经典的传统方法. 在模型结构方面, 基于深度学习的光流估计方法主要由特征提取模块、成本量模块和光流估计子网络模块组成. 其中, 特征提取模块是模型实现光流估计的关键, 其特征提取的质量严重影响后续成本量模块和光流估计子网络的工作性能. 在深度学习光流估计早期, 直接采用U-Net模式从连续两帧图像序列中提取图像特征用于光流估计[11], 但该方法获取的特征过于粗糙. 此后, 相关研究将图像金字塔引入光流估计网络用于捕获不同运动幅度的图像特征[12], 但分辨率的变化导致图像特征存在较为严重的信息丢失. 后续, 基于由粗到细特征金字塔编码结构的深度学习光流估计模型被证明可以有效处理大位移运动问题. 然而, 在金字塔采样过程中, 由于目标像素损失致使目标在传递过程中存在特征稀释问题, 从而造成大位移运动光流估计存在局部信息丢失, 特别是位移较大的小目标. 同时, 受标准卷积核可学习参数量的内在因素限制, 当前仅依赖标准卷积构建的特征提取网络在特征提取内容丰富度与置信度方面仍存在较大不足. 针对该问题, 传统的光流估计方法[13]通过将随机搜索策略与由粗到细的方案相结合, 以提高大位移运动光流估计精度. 但由于光流估计网络需要大量迭代估计, 导致模型精度与估计效率不能较好的平衡. 为此, Hur等[14]提出一种权值共享编码网络并使用迭代残差优化方案进一步细化光流结果, 在减少模型参数的同时提高了光流估计准确性. 但该模型仅集中于对光流估计的后置处理, 因此, 对特征稀释造成的大位移运动局部信息损失问题, 仍无法妥善解决.

为解决上述问题, 本文提出一种联合深度超参数卷积和交叉关联注意力的大位移光流估计方法. 首先, 针对光流估计模型特征提取置信度与丰富度较低问题, 构建基于深度超参数卷积的光流估计网络, 通过将深层卷积与标准卷积耦合提升卷积特征学习的丰富度, 从而捕获置信度更高的图像特征. 其次, 针对基于由粗到细策略的金字塔模型引起大位移运动局部信息丢失问题, 设计基于交叉关联注意力的特征提取编码网络进行局部到全局的特征编码模型, 通过改变不同尺度下的特征提取感受野增强长距离目标上下文信息建模能力, 从而提高大位移场景下光流估计的准确性与鲁棒性. 本文的主要贡献总结如下:

1) 首次将深层卷积引入光流估计任务, 并与标准卷积耦合构建基于深度超参数卷积的光流估计网络, 通过提高模型特征提取的置信度与内容丰富度, 不仅加快模型训练收敛速度还有效提升了光流估计的可靠性;

2) 提出一种交叉关联注意力的特征提取编码网络, 通过建立局部到全局的注意力感受野变化策略, 实现了不同尺度目标长距离上下文特征关联, 进一步提高了大位移运动光流估计的准确性与鲁棒性;

3) 采用MPI-Sintel与KITTI等权威测试数据集对本文方法和现有代表性深度学习方法进行综合实验对比分析. 结果表明, 本文方法在大多数测量指标上均取得了最优结果, 尤其在大位移运动区域.

本文内容安排如下: 第1节介绍了光流估计方法的相关工作; 第2节详述了所提出的联合深度超参数卷积和交叉关联注意力的光流估计方法; 第3节给出了本文方法模型损失函数与训练策略; 第4节详细叙述了实验结果与分析; 第5节是对全文的总结.


3

正文框架

1. 相关工作

2. 联合深度超参数卷积和交叉关联注意力的光流估计模型

  2.1 网络模型整体架构

  2.2 基于深度超参数卷积的光流估计方法

  2.3 网络模型整体架构

3. 模型损失函数与训练策略

  3.1 模型损失函数

  3.2 模型训练策略

4. 实验结果与分析

  4.1 光流评价指标

  4.2 MPI-Sintel数据集实验对比

  4.3 KITTI数据集实验对比

  4.4 消融实验

5. 结论


部分文献


[1] 张骄阳, 丛爽, 匡森. n比特随机量子系统实时状态估计及其反馈控制. 自动化学报, DOI: 10.16383/j.aas.c210916


Zhang Jiao-Yang, Cong Shuang, Kuang Sen. Real-time state estimation and feedback control for n-qubit stochastic quantum systems. Acta Automatica Sinica, DOI: 10.16383/j.aas.c210916


[2] 张伟, 黄卫民. 基于种群分区的多策略自适应多目标粒子群算法. 自动化学报, 2022, 48(10): 2585−2599 doi: 10.16383/j.aas.c200307

Zhang Wei, Huang Wei-Min. Multi-strategy adaptive multi-objective particle swarm optimization algorithm based on swarm partition. Acta Automatica Sinica, 2022, 48(10): 2585−2599 doi: 10.16383/j.aas.c200307


[3] 张芳, 赵东旭, 肖志涛, 耿磊, 吴骏, 刘彦北. 单幅图像超分辨率重建技术研究进展. 自动化学报, 2022, 48(11): 2634−2654 doi: 10.16383/j.aas.c200777

Zhang Fang, Zhao Dong-Xu, Xiao Zhi-Tao, Geng Lei, Wu Jun, Liu Yan-Bei. Research progress of single image super-resolution reconstruction technology. Acta Automatica Sinica, 2022, 48(11): 2634−2654 doi: 10.16383/j.aas.c200777


[4] 杨天金, 侯振杰, 李兴, 梁久祯, 宦娟, 郑纪翔. 多聚点子空间下的时空信息融合及其在行为识别中的应用. 自动化学报, 2022, 48(11): 2823−2835 doi: 10.16383/j.aas.c190327

Yang Tian-Jin, Hou Zhen-Jie, Li Xing, Liang Jiu-Zhen, Huan Juan, Zheng Ji-Xiang. Recognizing action using multi-center subspace learning-based spatial-temporal information fusion. Acta Automatica Sinica, 2022, 48(11): 2823−2835 doi: 10.16383/j.aas.c190327


[5] 闫梦凯, 钱建军, 杨健. 弱对齐的跨光谱人脸检测. 自动化学报, 2023, 49(1): 135−147 doi: 10.16383/j.aas.c210058

Yan Meng-Kai, Qian Jian-Jun, Yang Jian. Weakly aligned cross-spectral face detection. Acta Automatica Sinica, 2023, 49(1): 135−147 doi: 10.16383/j.aas.c210058


[6] 郭迎春, 冯放, 阎刚, 郝小可. 基于自适应融合网络的跨域行人重识别方法. 自动化学报, 2022, 48(11): 2744−2756 doi: 10.16383/j.aas.c220083

Guo Ying-Chun, Feng Fang, Yan Gang, Hao Xiao-Ke. Cross-domain person re-identification on adaptive fusion network. Acta Automatica Sinica, 2022, 48(11): 2744−2756 doi: 10.16383/j.aas.c220083


[7] Horn B K P, Schunck B G. Determining optical flow. Artificial Intelligence, 1981, 17(1-3): 185−203 doi: 10.1016/0004-3702(81)90024-2


[8] Sun D Q, Roth S, Black M J. Secrets of optical flow estimation and their principles. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, USA: IEEE, 2010. 2432−2439


[9] Menze M, Heipke C, Geiger A. Discrete optimization for optical flow. In: Proceedings of the 37th German Conference Pattern Recognition (GCPR). Aachen, Germany: Springer, 2015. 16−28


[10] Chen Q F, Koltun V. Full flow: Optical flow estimation by global optimization over regular grids. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 4706−4714


[11] Dosovitskiy A, Fischer P, Ilg E, Häusser P, Hazirbas C, Golkov V. FlowNet: Learning optical flow with convolutional networks. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 2758−2766


[12] Ranjan A, Black M J. Optical flow estimation using a spatial pyramid network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 2720−2729


[13] Amiaz T, Lubetzky E, Kiryati N. Coarse to over-fine optical flow estimation. Pattern Recognition, 2007, 40(9): 2496−2503 doi: 10.1016/j.patcog.2006.09.011


[14] Hur J, Roth S. Iterative residual refinement for joint optical flow and occlusion estimation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 5754−5763


作者简介



王梓歌,南昌航空大学测试与光电工程学院硕士研究生. 主要研究方向为计算机视觉.

葛利跃,南昌航空大学信息工程学院助理实验师. 北京航空航天大学仪器科学与光电工程学院博士研究生. 主要研究方向图像检测与智能识别.

陈震,南昌航空大学测试与光电工程学院教授. 2003年获得西北工业大学博士学位. 主要研究方向为图像处理与计算机视觉. 

张聪炫,南昌航空大学测试与光电工程学院教授. 2014年获得南京航空航天大学博士学位. 主要研究方向为图像处理与计算机视觉. 本文通信作者.

王子旭,南昌航空大学测试与光电工程学院硕士研究生. 主要研究方向为计算机视觉. 

舒铭奕,南昌航空大学测试与光电工程学院硕士研究生. 主要研究方向为计算机视觉. 


【视频专栏】智能网联电动汽车节能优化控制研究进展与展望

【视频专栏】含有输入时滞的非线性系统的输出反馈采样控制

【视频专栏】基于多示例学习图卷积网络的隐写者检测

【视频专栏】逆强化学习算法、理论与应用研究综述

【视频专栏】基于注意力机制和循环域三元损失的域适应目标检测

【视频专栏】基于语境辅助转换器的图像标题生成算法

【视频专栏】数据驱动的间歇低氧训练贝叶斯优化决策方法

【视频专栏】无控制器间通信的线性多智能体一致性的降阶协议

【视频专栏】异策略深度强化学习中的经验回放研究综述

2023年度自动化领域国家自然科学基金申请与资助情况

【视频专栏】基于距离信息的追逃策略:信念状态连续随机博弈

【视频专栏】城市固废焚烧过程智能优化控制研究现状与展望

【视频专栏】深度对比学习综述

【视频专栏】视网膜功能启发的边缘检测层级模型

【视频专栏】一种新的分段式细粒度正则化的鲁棒跟踪算法

【视频专栏】基于自适应多尺度超螺旋算法的无人机集群姿态同步控制

【视频专栏】基于分层控制策略的六轮滑移机器人横向稳定性控制

【视频专栏】基于改进YOLOX的移动机器人目标跟随方法

自动化学报创刊60周年专刊| 孙长银教授等:基于因果建模的强化学习控制: 现状及展望

【视频专栏】基于多尺度变形卷积的特征金字塔光流计算方法

自动化学报创刊60周年专刊| 柴天佑教授等:端边云协同的PID整定智能系统

【视频专栏】一种同伴知识互增强下的序列推荐方法

自动化学报创刊60周年专刊| 桂卫华教授等:复杂生产流程协同优化与智能控制

【视频专栏】 基于跨模态实体信息融合的神经机器翻译方法

自动化学报创刊60周年专刊| 王耀南教授等:机器人感知与控制关键技术及其智能制造应用

【视频专栏】机器人运动轨迹的模仿学习综述

自动化学报创刊60周年专刊| 于海斌研究员等:无线化工业控制系统: 架构、关键技术及应用

自动化学报创刊60周年专刊| 王飞跃教授等:平行智能与CPSS: 三十年发展的回顾与展望

自动化学报创刊60周年专刊| 陈杰教授等:非线性系统的安全分析与控制: 障碍函数方法

自动化学报创刊60周年专刊| 乔俊飞教授等:城市固废焚烧过程数据驱动建模与自组织控制

自动化学报创刊60周年专刊| 姜斌教授等:航天器位姿运动一体化直接自适应容错控制研究

自动化学报创刊60周年专刊| 王龙教授等:多智能体博弈、学习与控制

》自动化学报创刊60周年专刊| 刘成林研究员等:类别增量学习研究进展和性能评价

《自动化学报》创刊60周年专刊|杨孟飞研究员等:空间控制技术发展与展望

城市固废焚烧过程数据驱动建模与自组织控制

面向全量测点耦合结构分析与估计的工业过程监测方法

《自动化学报》多篇论文入选高影响力论文

》复杂网络能控性鲁棒性研究进展

》解耦表征学习综述

》考虑输出约束的冗余驱动绳索并联机器人预设性能控制 

》面向网络空间防御的对抗机器学习研究综述

【虚拟专题】机器人

》基于事件相机的机器人感知与控制综述

》《自动化学报》广受关注论文合集

2022年第01-07期综述

》【热点专题】多目标优化

》【热点专题】目标检测

》异构集群系统分布式自适应输出时变编队跟踪控制

》深海起重机系统的实时轨迹规划方法

》数据和知识驱动的城市污水处理过程多目标优化控制

》基于池的无监督线性回归主动学习

》基于非线性干扰观测器的飞机全电刹车系统滑模控制设计

综合集成研讨厅体系

传感器饱和的非线性网络化系统模糊H∞滤波

基于区块链的数字货币发展现状与展望
比特驱动的瓦特变革—信息能源系统研究综述

》征文|《自动化学报》多智能体系统专刊

》《自动化学报》致谢审稿人(2023年度)

》《自动化学报》兼职编辑招聘启事

》《自动化学报》创刊六十周年学术研讨会第六期

》《自动化学报》创刊六十周年学术研讨会第五期

》自动化学报蝉联百种中国杰出期刊称号

》《自动化学报》20篇文章入选2023“领跑者5000”顶尖论文

》《自动化学报》创刊六十周年学术研讨会第三期

》《自动化学报》创刊六十周年学术研讨会第二期

》《自动化学报》创刊六十周年学术研讨会第一期

》《自动化学报》致谢审稿人(2022年度)

》《自动化学报》13篇文章入选2022“领跑者5000”顶尖论文

》自动化学报连续11年入选国际影响力TOP期刊榜单

》《自动化学报》影响因子6.627,影响因子和影响力指数排名第1

》JAS最新影响因子7.847,排名全球前10%

《自动化学报》17篇文章入选2021“领跑者5000”顶尖论文

》自动化学报多名作者入选爱思唯尔2021中国高被引学者

》自动化学报(英文版)和自动化学报入选计算领域高质量科技期刊T1类

》自动化学报多篇论文入选中国百篇最具影响国内论文和中国精品期刊顶尖论文

》JAS进入中科院分区工程技术和计算机科学类1区、Top期刊

》自动化学报蝉联百种中国杰出期刊称号,入选中国精品科技期刊
》《自动化学报》挺进世界期刊影响力指数Q1区
》《自动化学报》多名作者入选科睿唯安2020年度高被引科学家
》自动化学报排名第一,被评定为中国中文权威期刊
》2024年第02期
》2024年第01期
》2023年第11期
》2023年第10期
》2023年第09期
》2023年第08期
》2023年第07期
》2023年第06期
》2023年第05期
》2023年第04期
》《自动化学报》创刊60周年专刊
2023年第01期
2022年第10期
》2022年第09期
2022年第08期
》2022年第07期
2022年第01-06期
2021年第11期
2021年第10期

》2021年第09期

》2021年第08期
》2021年第07期
》2021年第06期
》2021年第05期
》2021年第04期
》2021年第03期
》2021年第02期
》2021年第01期



长按二维码|关注我们

IEEE/CAA Journal of Automatica Sinica (JAS)

长按二维码|关注我们

《自动化学报》服务号

联系我们

网站: 

http://www.aas.net.cn

https://www.ieee-jas.net

投稿: 

https://mc03.manuscriptcentral.com/aas-cn 

https://mc03.manuscriptcentral.com/ieee-jas 

电话:  010-82544653(日常咨询和稿件处理) 

           010-82544677(录用后稿件处理)

邮箱:  aas@ia.ac.cn(日常咨询和稿件处理)

           aas_editor@ia.ac.cn(录用后稿件处理)

博客: 

http://blog.sina.com.cn/aasedit

点击阅读原文 了解更多

自动化学报
《自动化学报》是由中国自动化学会、中国科学院自动化研究所共同主办的高级学术期刊。该公众服务号旨在发布学报网刊、期刊动态,为读者提供在线网刊、为作者提供在线查稿、为审者提供在线送审的服务。
 最新文章