【视频专栏】基于注意力机制和循环域三元损失的域适应目标检测

文摘   科技   2024-03-14 16:28   北京  

点击上方蓝字关注我们


周洋, 韩冰, 高新波, 杨铮, 陈玮铭. 基于注意力机制和循环域三元损失的域适应目标检测. 自动化学报, DOI: 10.16383/j.aas.c220938

1

摘要

       目前大多数深度学习算法都依赖于大量的标注数据并欠缺一定的泛化能力. 无监督域适应算法能提取到已标注数据和未标注数据间隐式共同特征, 从而提高算法在未标注数据上的性能. 目前域适应目标检测算法主要为两阶段目标检测器设计. 针对单阶段检测器中无法直接进行实例级特征对齐导致一定数量域不变特征的缺失, 提出结合通道注意力机制的图像级域分类器加强域不变特征提取. 此外对于域适应目标检测中存在类别特征的错误对齐引起的精度下降问题, 通过原型学习构建类别中心, 设计了一种基于原型的循环域三元损失函数, 从而实现原型引导的精细类别特征对齐. 以单阶段目标检测算法作为检测器, 在多种域适应目标检测公共数据集上进行实验. 实验结果证明该方法能有效提升原检测器在目标域的泛化能力达到更高的检测精度, 并且对于单阶段目标检测网络具有一定的通用性.


2

引言

随着深度学习时代的到来, 许多领域都发生着日新月异的巨大变化, 无论是智慧安防, 智慧医疗亦或是目前备受关注的自动驾驶领域都得益于深度神经网络中提取到的高维语义. 目前基于神经网络[1]的深度学习方法在图像分类, 目标检测, 图像分割等领域取得了卓越的成绩. 但不可否认这些成功的背后都依赖于大量的标注数据, 所以目前大多数深度学习方法可以认为是数据驱动的. 通常地, 机器学习模型需要训练大量的已标注数据并假设训练集和测试集的数据是同分布的[2]才能取得较好的效果. 但实际上如果我们将一个在某种特定场景(或数据集上)训练好的模型直接应用到另一种场景中(或另一个数据集上), 当新场景数据与训练集数据不满足同分布假设的时候, 就会造成模型性能的大幅降低. 这是因为分布上的不一致使得直接应用于训练集外的模型发生了域迁移, 进而导致了性能的退化. 这种现象在真实场景中非常常见, 例如自动驾驶场景中训练数据通常从晴朗的白天捕获而来, 而测试环境是没有标注的夜晚或者雨雪天等极端天气都会造成模型精度的骤减. 为解决以上问题, 产生了无监督领域自适应方法, 旨在利用源域已有标记的数据和目标域没有标注的数据同时作为网络输入部分, 利用域适应算法促使网络学习到域不变特征, 进而提升模型在目标域的泛化能力. 这种无监督的域适应方法[3-4]在早期往往通过一种距离度量来构造损失函数, 在训练过程中通过最小化这个损失函数从而拉近两个域之间的距离; 基于梯度反转层方法[5]的提出给域适应方向提供了一种新的思路, 同生成对抗网络[6]中的原理类似, 通过构造一个具有梯度反转层的域分类器作为判别器, 利用对抗训练得到能够捕获域不变特性的特征提取器. 域适应的方法目前在分类和分割任务都上取得了很好的成果并在行人重识别领域也有较好地结合[7-8], 但由于目标检测任务同时涉及到目标分类和目标框的回归使得直接应用域适应方法存在一定困难, 所以基于域适应方法在检测任务上的研究工作相对较少并存在一定的挑战.

目前大多数方法都是基于双阶段目标检测网络Faster-RCNN[9]实现的域自适应目标检测算法. Chen等[10]首次将FasterRCNN和域适应算法相结合, 利用对抗特征学习的方法构建梯度反转层和域分类器实现图像级和实例级的特征对齐. Saito等[11]讨论了域分类器对于主干网络浅层和深层特征进行域适应带来的不同影响, 并且使用Focal Loss[12]作为深层特征的域分类损失函数以解决类别不平衡问题. Shen等[13]进一步讨论了网络不同位置加入Focal Loss所带来的影响. Zheng等[14]引入注意力机制获得权重特征图, 该特征图强调可能存在目标的区域, 并将该特征图和域分类损失加权, 使得网络更加关注于可能存在目标的区域, 同时该方法构建类别原型并计算各类原型之间的相似性, 实现类别特征的对齐. Xu等[15]提出了一种类别正则化的策略进一步加强特征对齐, 该策略利用多标签分类器的弱定位能力去指导对抗训练. HSU等[16]通过关注前景像素来实现基于中心感知的特征对齐, 从而获得更好的跨域适应性. Chen等[17]在输入端使用循环对抗生成网络(Cycle generative adversarial network, CycleGAN)[18]将源域和目标域的图像转变成一个插值域来联结域间的鸿沟, 同时从域分类器中引入上下文特征向量来增强实例级特征的表达能力. Deng等[19]设计了一种教师-学生蒸馏网络, 将蒸馏损失和域分类损失共同指导网络学习到域不变特征. Xu等[20]结合图的思想, 在源域和目标域构建图结构和图一致性损失, 进而拉进两个域间的距离. Wu等[21]提出了一种基于向量分解的解耦学习方法以分离域不变表示和域特异表示从而促进了领域不变表示包含更多的领域无关信息.

在单阶段目标检测器上实现域适应算法相较于双阶段检测器更为困难, 因为其缺少可以提取目标建议区的区域提取网络(Region proposal network, RPN)[9]网络, 所以无法直接实现实例级的特征对齐. 文献[22-24]都是基于单阶段多检测框检测器(Single shot multibox detector, SSD[25])的域适应目标检测算法. Rodriguez等[24]利用了伪标签自训练的思想, 先使用在源域训练好的模型在目标域推理得到伪标签, 再设计伪标签更新的策略使得模型向目标域泛化. 李威等[23]综合源域和目标域中域不变的内容空间及域特有的属性空间表示进行多样性的图像翻译从而实现了一种多源域的渐进域适应算法. 但二者[23-24]都需要先进行源域向目标域的图像翻译, 再作为域适应检测网络的输入进行训练, 不属于端到端的训练方式. Chen等[22]在图像和像素级别的对齐基础上, 构建原型特征隐式地完成实例级对齐, 但其在实例的选择上缺少目标置信度信息对实例特征进行筛选, 进而导致目标域原型存在较大的偏差. 兼具速度和精度的“你只需看一次(You only look once, YOLO)”系列网络是最广受工业界青睐的目标检测器之一, 尽管YOLOv1提出较早但YOLO系列的检测器的发展却从未停止. 从2015提出的YOLOv1[26]到目前最新的YOLOv8[27], YOLO系列网络的演进更能体现出目标检测的发展. 先进的YOLO检测器精度和速度也已远远超过Faster-RCNN和SSD网络. Zhang等[28]以YOLOv3[29]检测器为基础实现域适应YOLO目标检测算法(Domain Adaptation YOLO, DAYOLO), 但其只是简单的将文献[10]中的域适应方法迁移到在YOLOv3上. Hnewa等[30]以YOLOv4[31]为检测器提出了一种多尺度特征融合的域适应YOLO目标检测网络(Multi Scale Domain Adaptive YOLO, MS-DAYOLO). Vidit等[32]以YOLOv5[33]作为检测器, 引入自注意力机制自适应捕获目标区域从而提高在目标域的检测精度. 尽管如此, 二者[30, 32]都缺乏对类别特征的对齐从而导致不同类别之间误对齐带来的精度下降, Li等[34]以YOLOv5作为检测器提出步进式域适应YOLO目标检测算法(Stepwise Domain Adaptative YOLO, S-DAYOLO), 在图像级和实例级特征对齐模块之间引入类别一致性模块, 一定程度上缓解了类别特征误对齐带来的影响.

基于此, 本文针对单阶段目标检测算法, 主要以YOLO检测器为主, 提出了一种主要基于对抗特征训练的无监督领域自适应单阶段目标检测算法. 首先本文设计了一种简单而有效的基于通道注意力机制的域分类器(Channel attention domian classifier, CADC)用于图像级特征对齐以加强图像级域不变特征的提取进而补充域不变信息. 该方法将SE通道注意力机制模块[35]和域分类器相结合, 使得网络更加关注域不变特征通道并且抑制域特异特征通道. 进一步地, 通过构造不同类别的原型特征, 设计了一种基于原型的循环域三元损失函数 (Cycle domain tripleloss, CDTL), 在循环域三元损失函数的指导下使不同域之间相同类别原型间的距离尽可能近, 同时使得同一个域中不同类别原型间的距离尽可能远进而对齐类别特征. 总的来说, 本文主要有以下三点贡献:


1)为了自适应地搜寻更多的具有域不变特性的特征, 提出基于通道注意力机制的图像级域分类器, 加强模型对域不变信息的学习.


2)为了纠正特征对齐中出现的类别偏差, 设计了一种域间基于原型的循环域三元损失函数更好地实现类别对齐, 进一步提升了检测精度.


3)通过大量实验证明本文方法的有效性, 并适用于单阶段目标检测网络, 可以为后续相关工作提供一定的参考.


3

正文框架

1. 基于注意力机制和循环域三元损失的无监督域适应单阶段目标检测

  1.1 基于通道注意力机制的域分类器

  1.2 基于原型的循环域三元损失函数

2. 实验结果与分析

  2.1 实验数据集与评价指标

  2.2 对比实验与分析

  2.3 消融实验与分析

3. 结束语


部分文献


[1] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems (NIPS), Lake Tahoe, Nevada, USA: IEEE, 2012. 1097−1105.


[2] Bottou L, Bousquet O. The tradeoffs of large scale learning[J]. Advances in neural information processing systems, 2007, 20.


[3] Shen J, Qu Y, Zhang W, et al. Wasserstein distance guided representation learning for domain adaptation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32.


[4] 皋军, 黄丽莉, 孙长银. 一种基于局部加权均值的领域适应学习框架. 自动化学报, 2013, 39(7): 1037-1052. doi: 10.3724/SP.J.1004.2013.01037.

GAO Jun, HUANG Li-Li, SUN Chang-Yin. A Local Weighted Mean Based Domain Adaptation Learning Framework. ACTA AUTOMATICA SINICA, 2013, 39(7): 1037-1052. doi: 10.3724/SP.J.1004.2013.01037


[5] Ganin Y, Ustinova E, Ajakan H, et al. Domain-adversarial training of neural networks[J]. The journal of machine learning research, 2016, 17(1): 2096-2030.


[6] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144. doi: 10.1145/3422622


[7] 郭迎春, 冯放, 阎刚, 郝小可. 基于自适应融合网络的跨域行人重识别方法. 自动化学报, 2022, 48(11): 2744-2756 doi: 10.16383/j.aas.c220083.

Guo Ying-Chun, Feng Fang, Yan Gang, Hao Xiao-Ke. Cross-domain person re-identification on adaptive fusion network. Acta Automatica Sinica, 2022, 48(11): 2744?2756 doi: 10.16383/j.aas.c220083


[8] 梁文琦, 王广聪, 赖剑煌. 基于多对多生成对抗网络的非对称跨域迁移行人再识别. 自动化学报, 2022, 48(1): 103-120 doi: 10.16383/j.aas.c190303.

Liang Wen-Qi, Wang Guang-Cong, Lai Jian-Huang. Asymmetric cross-domain transfer learning of person re-identification based on the many-to-many generative adversarial network. Acta Automatica Sinica, 2022, 48(1): 103?120 doi: 10.16383/j.aas.c190303.


[9] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. Advances in neural information processing systems, 2015, 28.


[10] Chen Y, Li W, Sakaridis C, et al. Domain adaptive faster r-cnn for object detection in the wild[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 3339−3348.


[11] Saito K, Ushiku Y, Harada T, et al. Strong-Weak distribution alignment for adaptive object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6956−6965.


[12] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, PP(99): 2999-3007.


[13] Shen Z, Maheshwari H, Yao W, et al. Scl: Towards accurate domain adaptive object detection via gradient detach based stacked complementary losses[J]. arXiv preprint arXiv: 1911.02559, 2019.


[14] Zheng Y, Huang D, Liu S, et al. Cross-domain Object Detection through Coarse-to-Fine Feature Adaptation: IEEE, 10.1109/CVPR42600.2020.01378[P]. 2020.


[15] Xu C D, Zhao X R, Jin X, et al. Exploring categorical regularization for domain adaptive object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 11724−11733.


[16] HSU C C, TSAI Y H, LIN Y Y, et al. Every Pixel Matters: Center-Aware Feature Alignment for Domain Adaptive Object Detector[C]//VEDALDI A, BISCHOF H, BROX T, et al. Computer Vision – ECCV 2020. Cham: Springer International Publishing, 2020: 733−748.


[17] Chen C, Zheng Z, Ding X, et al. Harmonizing transferability and discriminability for adapting object detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8869−8878.


[18] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223−2232.


[19] Deng J, Li W, Chen Y, et al. Unbiased mean teacher for cross-domain object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 4091−4101.


[20] Xu M, Wang H, Ni B, et al. Cross-domain detection via graph-induced prototype alignment[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12355−12364.


[21] Wu A, Liu R, Han Y, et al. Vector-decomposed disentanglement for domain-invariant object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 9342−9351.


[22] Chen C, Zheng Z, Huang Y, et al. I3net: Implicit instance-invariant network for adapting one-stage object detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12576−12585.


[23] 李威, 王蒙. 基于渐进多源域迁移的无监督跨域目标检测[J]. 自动化学报, 2022, 48(8): 1-15. doi: 10.16383/j.aas.c190532

Li Wei, Wang Meng. Unsupervised cross-domain object detection based on progressive multi-source transfer. Acta Automatica Sinica, 2022, 48(9): 2337?2351 doi: 10.16383/j.aas.c190532.


[24] A. L. Rodriguez and K. Mikolajczyk, "Domain adaptation for object detection via style consistency," British Machine Vision Conference, 2019.


[25] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21−37.


[26] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779−788.


[27] Yolov8 [Online], available: https://github.com/ultralytics/yolov8, Feb 15, 2023


[28] Zhang S, Tuo H, Hu J, et al. Domain Adaptive YOLO for One-Stage Cross-Domain Detection[C]//Asian Conference on Machine Learning. PMLR, 2021: 785−797.


[29] Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv: 1804.02767, 2018.


[30] HNEWA M, RADHA H. Integrated Multiscale Domain Adaptive YOLO[J]. arXiv: 2202.03527, 2022


[31] Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004.10934, 2020.


[32] Vidit V, Salzmann M. Attention-based domain adaptation for single-stage detectors[J]. Machine Vision and Applications, 2022, 33(5): 65. doi: 10.1007/s00138-022-01320-y


[33] Yolov5[Online], available: https://github.com/ultralytics/yolov5, Nov 28, 2022


[34] LI G, JI Z, QU X, et al. Cross-Domain Object Detection for Autonomous Driving: A Stepwise Domain Adaptative YOLO Approach[J]. IEEE Transactions on Intelligent Vehicles, 2022: 1-1.



作者简介



周洋,西安电子科技大学电子工程学院硕士研究生. 2020获西南石油大学电子信息工程学士学位. 主要研究方向为计算机视觉和域适应目标检测. 

韩冰,博士, 西安电子科技大学电子工程学院教授. 目前主要研究领域为智能辅助驾驶、视觉感知与认知、空间物理与人工智能交叉研究等. 本文通信作者.

高新波,博士, 西安电子科技大学教授, 重庆邮电大学校长. 目前主要从事机器学习、图像处理、计算机视觉、模式识别和多媒体内容分析等领域的研究.

杨铮,西安电子科技大学电子工程学院博士研究生. 2017获西安电子科技大学智能科学与技术学士学位. 主要研究方向为深度学习, 目标跟踪和强化学习.

陈玮铭,西安电子科技大学电子工程学院硕士研究生. 2019获西安电子科技大学机械设计制造及其自动化学士学位. 主要研究方向为计算机视觉, 目标检测和遥感技术.


【视频专栏】基于语境辅助转换器的图像标题生成算法

【视频专栏】数据驱动的间歇低氧训练贝叶斯优化决策方法

【视频专栏】无控制器间通信的线性多智能体一致性的降阶协议

【视频专栏】异策略深度强化学习中的经验回放研究综述

2023年度自动化领域国家自然科学基金申请与资助情况

【视频专栏】基于距离信息的追逃策略:信念状态连续随机博弈

【视频专栏】城市固废焚烧过程智能优化控制研究现状与展望

【视频专栏】深度对比学习综述

【视频专栏】视网膜功能启发的边缘检测层级模型

【视频专栏】一种新的分段式细粒度正则化的鲁棒跟踪算法

【视频专栏】基于自适应多尺度超螺旋算法的无人机集群姿态同步控制

【视频专栏】基于分层控制策略的六轮滑移机器人横向稳定性控制

【视频专栏】基于改进YOLOX的移动机器人目标跟随方法

自动化学报创刊60周年专刊| 孙长银教授等:基于因果建模的强化学习控制: 现状及展望

【视频专栏】基于多尺度变形卷积的特征金字塔光流计算方法

自动化学报创刊60周年专刊| 柴天佑教授等:端边云协同的PID整定智能系统

【视频专栏】一种同伴知识互增强下的序列推荐方法

自动化学报创刊60周年专刊| 桂卫华教授等:复杂生产流程协同优化与智能控制

【视频专栏】 基于跨模态实体信息融合的神经机器翻译方法

自动化学报创刊60周年专刊| 王耀南教授等:机器人感知与控制关键技术及其智能制造应用

【视频专栏】机器人运动轨迹的模仿学习综述

自动化学报创刊60周年专刊| 于海斌研究员等:无线化工业控制系统: 架构、关键技术及应用

自动化学报创刊60周年专刊| 王飞跃教授等:平行智能与CPSS: 三十年发展的回顾与展望

自动化学报创刊60周年专刊| 陈杰教授等:非线性系统的安全分析与控制: 障碍函数方法

自动化学报创刊60周年专刊| 乔俊飞教授等:城市固废焚烧过程数据驱动建模与自组织控制

自动化学报创刊60周年专刊| 姜斌教授等:航天器位姿运动一体化直接自适应容错控制研究

自动化学报创刊60周年专刊| 王龙教授等:多智能体博弈、学习与控制

》自动化学报创刊60周年专刊| 刘成林研究员等:类别增量学习研究进展和性能评价

《自动化学报》创刊60周年专刊|杨孟飞研究员等:空间控制技术发展与展望

城市固废焚烧过程数据驱动建模与自组织控制

面向全量测点耦合结构分析与估计的工业过程监测方法

《自动化学报》多篇论文入选高影响力论文

》复杂网络能控性鲁棒性研究进展

》解耦表征学习综述

》考虑输出约束的冗余驱动绳索并联机器人预设性能控制 

》面向网络空间防御的对抗机器学习研究综述

【虚拟专题】机器人

》基于事件相机的机器人感知与控制综述

》《自动化学报》广受关注论文合集

2022年第01-07期综述

》【热点专题】多目标优化

》【热点专题】目标检测

》异构集群系统分布式自适应输出时变编队跟踪控制

》深海起重机系统的实时轨迹规划方法

》数据和知识驱动的城市污水处理过程多目标优化控制

》基于池的无监督线性回归主动学习

》基于非线性干扰观测器的飞机全电刹车系统滑模控制设计

综合集成研讨厅体系

传感器饱和的非线性网络化系统模糊H∞滤波

基于区块链的数字货币发展现状与展望
比特驱动的瓦特变革—信息能源系统研究综述

》《自动化学报》致谢审稿人(2023年度)

》《自动化学报》兼职编辑招聘启事

》《自动化学报》创刊六十周年学术研讨会第六期

》《自动化学报》创刊六十周年学术研讨会第五期

》自动化学报蝉联百种中国杰出期刊称号

》《自动化学报》20篇文章入选2023“领跑者5000”顶尖论文

》《自动化学报》创刊六十周年学术研讨会第三期

》《自动化学报》创刊六十周年学术研讨会第二期

》《自动化学报》创刊六十周年学术研讨会第一期

》《自动化学报》致谢审稿人(2022年度)

》《自动化学报》13篇文章入选2022“领跑者5000”顶尖论文

》自动化学报连续11年入选国际影响力TOP期刊榜单

》《自动化学报》影响因子6.627,影响因子和影响力指数排名第1

》JAS最新影响因子7.847,排名全球前10%

《自动化学报》17篇文章入选2021“领跑者5000”顶尖论文

》自动化学报多名作者入选爱思唯尔2021中国高被引学者

》自动化学报(英文版)和自动化学报入选计算领域高质量科技期刊T1类

》自动化学报多篇论文入选中国百篇最具影响国内论文和中国精品期刊顶尖论文

》JAS进入中科院分区工程技术和计算机科学类1区、Top期刊

》自动化学报蝉联百种中国杰出期刊称号,入选中国精品科技期刊
》《自动化学报》挺进世界期刊影响力指数Q1区
》《自动化学报》多名作者入选科睿唯安2020年度高被引科学家
》自动化学报排名第一,被评定为中国中文权威期刊
》2024年第02期
》2024年第01期
》2023年第11期
》2023年第10期
》2023年第09期
》2023年第08期
》2023年第07期
》2023年第06期
》2023年第05期
》2023年第04期
》《自动化学报》创刊60周年专刊
2023年第01期
2022年第10期
》2022年第09期
2022年第08期
》2022年第07期
2022年第01-06期
2021年第11期
2021年第10期

》2021年第09期

》2021年第08期
》2021年第07期
》2021年第06期
》2021年第05期
》2021年第04期
》2021年第03期
》2021年第02期
》2021年第01期



长按二维码|关注我们

IEEE/CAA Journal of Automatica Sinica (JAS)

长按二维码|关注我们

《自动化学报》服务号

联系我们

网站: 

http://www.aas.net.cn

https://www.ieee-jas.net

投稿: 

https://mc03.manuscriptcentral.com/aas-cn 

https://mc03.manuscriptcentral.com/ieee-jas 

电话:  010-82544653(日常咨询和稿件处理) 

           010-82544677(录用后稿件处理)

邮箱:  aas@ia.ac.cn(日常咨询和稿件处理)

           aas_editor@ia.ac.cn(录用后稿件处理)

博客: 

http://blog.sina.com.cn/aasedit

点击阅读原文 了解更多

自动化学报
《自动化学报》是由中国自动化学会、中国科学院自动化研究所共同主办的高级学术期刊。该公众服务号旨在发布学报网刊、期刊动态,为读者提供在线网刊、为作者提供在线查稿、为审者提供在线送审的服务。
 最新文章