点击文末 “阅读原文” 下载全文何贞苇, 张治龙, 张磊
引用本文: 何贞苇, 张治龙, 张磊. 开放环境下的跨域物体检测综述[J]. 计算机辅助设计与图形学学报, 2024, 36(4): 485-502. DOI: 10.3724/SP.J.1089.2024.2023-00816
Citation: He Zhenwei, Zhang Zhilong, Zhang Lei. Survey on Cross-Domain Object Detection in Open Environment[J]. Journal of Computer-Aided Design & Computer Graphics, 2024, 36(4): 485-502. DOI: 10.3724/SP.J.1089.2024.2023-00816
传统的物体检测模型假设模型的训练和测试数据来自相同或相似的场景, 然而该假设在实际运用中难以满足, 即检测模型被要求在不同的环境或场景下进行工作, 使得传统模型不可避免地受到影响, 导致检测精度明显下降. 为了解决这个问题, 近年来跨域物体检测问题受到了广泛关注. 文中介绍了近几年跨域物体检测问题的发展历程和相关方法, 将跨域物体检测方法归纳为基于迁移学习的、自学习的和图像生成的3大类. 其中, 基于迁移学习的方法结合域适应和物体检测方法, 提升模型对不同环境的适应能力; 基于自学习的方法利用伪标签提升模型在目标域上的迁移能力; 基于图像生成的方法利用生成式对抗网络生成相关的图像辅助模型训练, 提升模型在目标域的效果. 同时, 介绍了用于跨域物体检测的相关数据集和代表性方法的性能. 最后总结跨域物体检测现阶段的分类以及存在的不足, 并指出对未知域泛化性能的探索、数据隐私问题的解决, 以及视觉提示技术的应用等新发展方向.为了使传统的检测模型对场景变化更加鲁棒,跨域物体检测, 即域适应物体检测(domain adaptive object detection, DAOD)近年来受到了极大的关注. 为了解决DAOD问题, 利用多场景数据对模型进行训练是最直接的解决方案. 但是, 由于难以获得检测问题的标记数据, 对多场景进行数据的标记和训练成本颇高, 因此当前的DAOD模型往往是基于无监督的迁移学习进行, 其训练和测试设置如图1所示.
在处理非结构化文本数据时, DAOD的无监督设置有2个优点: (1) 利用带标签的源域数据和无标签数据就能将模型迁移到其他场景, 大大减少了数据标注的负担; (2) 在迁移的过程中, 目标域数据参与模型的训练使得检测器对场景变换的鲁棒性增强, 在一定程度上解决了实际应用中的问题. 本文首先介绍近年来DAOD的大致发展历程, 然后介绍一些相关的工作, 最后对相关方法进行总结.
叙事结构抽象方法是叙事可视化的重要组成部分, 通过对叙事结构进行抽象和表示, 可以更好地理解和呈现叙事内容. 本文将叙事结构的抽象方法分为连续性表示、单元式表示和离散化表示3类.
DAOD问题最早在2018年提出, 近年来得到了广泛的关注, 涌现出大量优秀的相关工作. 图2所示为从2018年至今一些具有代表性的DAOD工作. 现有的DAOD方法主要采用3种方法提升模型在目标域的精度, 包括基于迁移学习的域对齐方法、基于伪标签的自学习方法和基于生成式对抗网络(generative adversarial networks, GAN)的图像生成方法.○ 基于迁移学习的域对齐方法
对于DAOD问题, 最常用的迁移学习方法是通过对抗学习实现域对齐或者特征对齐. 目前, 基于迁移学习或者对抗学习解决DAOD问题的研究百花齐放, 在模型结构和迁移策略2个方面都做了重大的改进, 由此可分为2类: 一是基于卷积层(图像级)的多层次对抗学习, 二是对迁移方法本身的改进.(1) 多层次对抗学习方法. 经过近几年的发展, 大多数的DAOD方法都在网络的卷积层进行多层次的对抗学习, 因而成为DAOD问题中一个较为成功和成熟的解决方案. 基于卷积层的多层次对抗学习方法已成为DAOD问题中一个新的基准, 也为DAOD的研究提供了更多的可能性. 基于多层级对抗有以下改进方向: a. 融合卷积层和全连接层特征进行域混淆. b. 在卷积层采取多层次渐进式的训练方法. c. 借鉴FPN的网络结构对卷积层的特征进行多层级对抗.(2) 迁移学习的改进方法. 通过改进迁移学习或对抗学习的方法提高迁移学习的效果, 这类方法种类繁多, 大多基于域对齐的DAOD方法都对迁移学习的方法进行了改进. 通过简单的归纳, 运用较多的改进方法大致分为3种: a. 基于类别信息的改进方法. b. 在卷积层为不同像素加权. c. 利用其他迁移学习方法辅助特征混淆.○ 基于伪标签的自学习方法
基于伪标签的自学习方法是无监督学习或半监督学习的重要方法, 在DAOD问题中, 伪标签用于训练目标域的检测模型或者辅助网络的训练, 基于伪标签的方法大致分为2种: (1) 仅利用伪标签进行学习. (2) 自学习方法与其他方法相结合.基于伪标签的自学习方法很少单独使用, 往往基于其他的方法对模型进行优化. 伪标签相关方法为DAOD问题提供了很多解决思路, 是一个可以进一步研究的方向.○ 基于GAN的图像生成的方法
DAOD中, GAN被用于生成目标域或中间域的图像参与训练. 基于图像生成的DAOD方法大致也分为2种: (1) 直接利用生成图像训练目标域检测模型. (2) 结合图像生成和域对齐训练的检测方法. 与其他迁移学习方法一样, GAN实质上是在缩小域差异. 与伪标签自学习方法一样, GAN生成的图像在模型中常起到辅助训练的作用, 其效果取决于生成图像的好坏.经过近几年的发展, DAOD方法在不同任务上都取得了较好的结果. 目前, 已有大量的检测数据集用于DAOD, 这些数据集模拟了不同的跨域任务, 对模型的鲁棒性进行了比较完整的测试, 包括对不同天气、不同场景以及不同风格之间的迁移.现有的DAOD利用大量的检测数据集模拟不同的任务场景, 其中, 常用的数据集包括Cityscapes, Foggy Cityscapes, Sim10K, KITTI, Pas-cal VOC, Clipart, Watercolor, Comic, BDD100k等. 在上述数据集的基础上, 形成的大量相关的DAOD任务.基于上述数据集, 研究人员设计了一些跨域检测任务. 本文对一些DAOD方法在相关任务中的表现进行了对比, 如表1所示.DAOD方法得到了极大的发展, 各类方法百花齐放, 不仅在相应的条件下取得了较好的实验结果, 通过相互结合, 也产生了具有代表性的方法和模型.(1) 基于迁移学习的特征混淆方法通过学习域不变特征, 提升检测模型对目标域的适应能力. (2) 基于自训练伪标签的方法作为辅助学习的方式被广泛应用到DAOD方法中, 在特征域对齐的过程中提升模型的迁移能力. 在不进行特征混淆的情况下模型依然可以取得较好的实验效果, 在域差异较大的任务上取得了相对特征域对齐方法更好的表现. (3) 基于GAN的图像生成方法通过在图像层面缩小域差异, 提升检测模型在目标域上的适配能力. 基于GAN的方法在DAOD中也能取得较好的性能, 并被广泛应用.虽然现有的DAOD方法取得了巨大的成功, 但也有一些不足. 本文根据作者自身知识和经验, 总结一些存在的问题: (1) 基于域对齐的迁移学习方法在域差异较大的情况下, 会有一些意想不到的情况出现. (2) 基于自学习的伪标签方法可以让模型学习到目标域的特有信息, 但是现有的物体检测模型对域差异较为敏感, 使得目标域的伪标签不可靠. (3) GAN是在图像像素层面缩小域差异的一种方法. 但GAN的图像生成能力是特征对齐层面难以实现的.基于本文介绍的相关方法和经验, DAOD方法虽然取得了不错的发展, 但是还有以下的改进空间: (1) 深入研究背景在训练过程中的作用, 可以进一步提升DAOD方法的精度. (2) 从回归任务的损失函数出发, 研究不同回归结果对模型的影响, 发掘不同尺度的物体在迁移学习过程中的影响和作用. (3) 可通过在训练过程中平衡样本数量的方法, 改善样本不均衡所导致的问题. (4) 在GAN的生成过程中,需要更加关注对检测模型比较重要的部分(如图像中的前景和具有代表性的背景部分), 使得由GAN生成的图像会更加适用于解决DAOD问题. (5) 在更多的基础检测模型中探索DAOD方法的可能性和有效性.DAOD是近年来发展起来的一个新兴课题, 旨在提升检测模型的泛化性. 未来, DAOD需要突破以下相关的研究方向: (1) DAOD可以结合域泛化以及测试时域适配技术, 研究更接近真实世界的复杂场景, 使相关技术更具实际应用价值. (2) 如何克服源域模型具有较强的数据偏向性问题, 提升模型的适用范围, 是一个值得研究的课题. (4) 采用特征提取能力更强且本身具有更好泛化能力的物体检测模型作为基准模型, 解决DAOD问题也是一个明显的趋势. (5)如何利用视觉提示提升物体检测的跨域迁移能力, 同样也值得研究.
何贞苇(1992—), 男, 博士, 讲师, 硕士生导师, 主要研究方向为深度学习、目标检测、迁移学习、连续学习.
张治龙(2000—), 男, 硕士研究生, 主要研究方向为目标检测、迁移学习.
张 磊(1987—), 男, 博士, 教授, 博士生导师, CCF高级会员, 论文通信作者, 主要研究方向为机器智能、计算机视觉、机器学习、模式识别.
— END —
还没关注?点击下方“卡片”关注,获取第一时间资讯