综述推荐 | 开放环境下的跨域物体检测综述

学术科技 2024-07-12 14:17 北京

点击文末 “阅读原文” 下载全文

何贞苇, 张治龙, 张磊

重庆大学微电子与通信工程学院

重庆理工大学计算机科学与工程学院

引用本文: 何贞苇, 张治龙, 张磊. 开放环境下的跨域物体检测综述[J]. 计算机辅助设计与图形学学报, 2024, 36(4): 485-502. DOI: 10.3724/SP.J.1089.2024.2023-00816

Citation: He Zhenwei, Zhang Zhilong, Zhang Lei. Survey on Cross-Domain Object Detection in Open Environment[J]. Journal of Computer-Aided Design & Computer Graphics, 2024, 36(4): 485-502. DOI: 10.3724/SP.J.1089.2024.2023-00816

传统的物体检测模型假设模型的训练和测试数据来自相同或相似的场景, 然而该假设在实际运用中难以满足, 即检测模型被要求在不同的环境或场景下进行工作, 使得传统模型不可避免地受到影响, 导致检测精度明显下降. 为了解决这个问题, 近年来跨域物体检测问题受到了广泛关注. 文中介绍了近几年跨域物体检测问题的发展历程和相关方法, 将跨域物体检测方法归纳为基于迁移学习的、自学习的和图像生成的3大类. 其中, 基于迁移学习的方法结合域适应和物体检测方法, 提升模型对不同环境的适应能力; 基于自学习的方法利用伪标签提升模型在目标域上的迁移能力; 基于图像生成的方法利用生成式对抗网络生成相关的图像辅助模型训练, 提升模型在目标域的效果. 同时, 介绍了用于跨域物体检测的相关数据集和代表性方法的性能. 最后总结跨域物体检测现阶段的分类以及存在的不足, 并指出对未知域泛化性能的探索、数据隐私问题的解决, 以及视觉提示技术的应用等新发展方向.

跨域物体检测的背景

为了使传统的检测模型对场景变化更加鲁棒,跨域物体检测, 即域适应物体检测(domain adaptive object detection, DAOD)近年来受到了极大的关注. 为了解决DAOD问题, 利用多场景数据对模型进行训练是最直接的解决方案. 但是, 由于难以获得检测问题的标记数据, 对多场景进行数据的标记和训练成本颇高, 因此当前的DAOD模型往往是基于无监督的迁移学习进行, 其训练和测试设置如图1所示.

图1 DAOD流程

在处理非结构化文本数据时, DAOD的无监督设置有2个优点: (1) 利用带标签的源域数据和无标签数据就能将模型迁移到其他场景, 大大减少了数据标注的负担; (2) 在迁移的过程中, 目标域数据参与模型的训练使得检测器对场景变换的鲁棒性增强, 在一定程度上解决了实际应用中的问题. 本文首先介绍近年来DAOD的大致发展历程, 然后介绍一些相关的工作, 最后对相关方法进行总结.

DAOD的发展

叙事结构抽象方法是叙事可视化的重要组成部分, 通过对叙事结构进行抽象和表示, 可以更好地理解和呈现叙事内容. 本文将叙事结构的抽象方法分为连续性表示、单元式表示和离散化表示3类.

1. DAOD发展历程

DAOD问题最早在2018年提出, 近年来得到了广泛的关注, 涌现出大量优秀的相关工作. 图2所示为从2018年至今一些具有代表性的DAOD工作.

图2 DAOD相关工作

2. DAOD常用方法

现有的DAOD方法主要采用3种方法提升模型在目标域的精度, 包括基于迁移学习的域对齐方法、基于伪标签的自学习方法和基于生成式对抗网络(generative adversarial networks, GAN)的图像生成方法.

○ 基于迁移学习的域对齐方法

对于DAOD问题, 最常用的迁移学习方法是通过对抗学习实现域对齐或者特征对齐. 目前, 基于迁移学习或者对抗学习解决DAOD问题的研究百花齐放, 在模型结构和迁移策略2个方面都做了重大的改进, 由此可分为2类: 一是基于卷积层(图像级)的多层次对抗学习, 二是对迁移方法本身的改进.

(1) 多层次对抗学习方法. 经过近几年的发展, 大多数的DAOD方法都在网络的卷积层进行多层次的对抗学习, 因而成为DAOD问题中一个较为成功和成熟的解决方案. 基于卷积层的多层次对抗学习方法已成为DAOD问题中一个新的基准, 也为DAOD的研究提供了更多的可能性. 基于多层级对抗有以下改进方向: a. 融合卷积层和全连接层特征进行域混淆. b. 在卷积层采取多层次渐进式的训练方法. c. 借鉴FPN的网络结构对卷积层的特征进行多层级对抗.

(2) 迁移学习的改进方法. 通过改进迁移学习或对抗学习的方法提高迁移学习的效果, 这类方法种类繁多, 大多基于域对齐的DAOD方法都对迁移学习的方法进行了改进. 通过简单的归纳, 运用较多的改进方法大致分为3种: a. 基于类别信息的改进方法. b. 在卷积层为不同像素加权. c. 利用其他迁移学习方法辅助特征混淆.

○ 基于伪标签的自学习方法

基于伪标签的自学习方法是无监督学习或半监督学习的重要方法, 在DAOD问题中, 伪标签用于训练目标域的检测模型或者辅助网络的训练, 基于伪标签的方法大致分为2种: (1) 仅利用伪标签进行学习. (2) 自学习方法与其他方法相结合.

基于伪标签的自学习方法很少单独使用, 往往基于其他的方法对模型进行优化. 伪标签相关方法为DAOD问题提供了很多解决思路, 是一个可以进一步研究的方向.

○ 基于GAN的图像生成的方法

DAOD中, GAN被用于生成目标域或中间域的图像参与训练. 基于图像生成的DAOD方法大致也分为2种: (1) 直接利用生成图像训练目标域检测模型. (2) 结合图像生成和域对齐训练的检测方法.

与其他迁移学习方法一样, GAN实质上是在缩小域差异. 与伪标签自学习方法一样, GAN生成的图像在模型中常起到辅助训练的作用, 其效果取决于生成图像的好坏.

DAOD问题的任务设置

经过近几年的发展, DAOD方法在不同任务上都取得了较好的结果. 目前, 已有大量的检测数据集用于DAOD, 这些数据集模拟了不同的跨域任务, 对模型的鲁棒性进行了比较完整的测试, 包括对不同天气、不同场景以及不同风格之间的迁移.

1. DAOD相关数据集

现有的DAOD利用大量的检测数据集模拟不同的任务场景, 其中, 常用的数据集包括Cityscapes, Foggy Cityscapes, Sim10K, KITTI, Pas-cal VOC, Clipart, Watercolor, Comic, BDD100k等. 在上述数据集的基础上, 形成的大量相关的DAOD任务.

2. DAOD相关任务

基于上述数据集, 研究人员设计了一些跨域检测任务. 本文对一些DAOD方法在相关任务中的表现进行了对比, 如表1所示.

总结与展望

1. 现有DAOD方法的总结

DAOD方法得到了极大的发展, 各类方法百花齐放, 不仅在相应的条件下取得了较好的实验结果, 通过相互结合, 也产生了具有代表性的方法和模型.

(1) 基于迁移学习的特征混淆方法通过学习域不变特征, 提升检测模型对目标域的适应能力.

(2) 基于自训练伪标签的方法作为辅助学习的方式被广泛应用到DAOD方法中, 在特征域对齐的过程中提升模型的迁移能力. 在不进行特征混淆的情况下模型依然可以取得较好的实验效果, 在域差异较大的任务上取得了相对特征域对齐方法更好的表现.

(3) 基于GAN的图像生成方法通过在图像层面缩小域差异, 提升检测模型在目标域上的适配能力. 基于GAN的方法在DAOD中也能取得较好的性能, 并被广泛应用.

虽然现有的DAOD方法取得了巨大的成功, 但也有一些不足. 本文根据作者自身知识和经验, 总结一些存在的问题:

(1) 基于域对齐的迁移学习方法在域差异较大的情况下, 会有一些意想不到的情况出现.

(2) 基于自学习的伪标签方法可以让模型学习到目标域的特有信息, 但是现有的物体检测模型对域差异较为敏感, 使得目标域的伪标签不可靠.

(3) GAN是在图像像素层面缩小域差异的一种方法. 但GAN的图像生成能力是特征对齐层面难以实现的.

2. DAOD方法可能的改进

基于本文介绍的相关方法和经验, DAOD方法虽然取得了不错的发展, 但是还有以下的改进空间:

(1) 深入研究背景在训练过程中的作用, 可以进一步提升DAOD方法的精度.

(2) 从回归任务的损失函数出发, 研究不同回归结果对模型的影响, 发掘不同尺度的物体在迁移学习过程中的影响和作用.

(3) 可通过在训练过程中平衡样本数量的方法, 改善样本不均衡所导致的问题.

(4) 在GAN的生成过程中,需要更加关注对检测模型比较重要的部分(如图像中的前景和具有代表性的背景部分), 使得由GAN生成的图像会更加适用于解决DAOD问题.

(5) 在更多的基础检测模型中探索DAOD方法的可能性和有效性.

3. DAOD的新发展方向

DAOD是近年来发展起来的一个新兴课题, 旨在提升检测模型的泛化性. 未来, DAOD需要突破以下相关的研究方向:

(1) DAOD可以结合域泛化以及测试时域适配技术, 研究更接近真实世界的复杂场景, 使相关技术更具实际应用价值.

(2) 如何克服源域模型具有较强的数据偏向性问题, 提升模型的适用范围, 是一个值得研究的课题.

(3) 改进DAOD的训练、测试实验设置.

(4) 采用特征提取能力更强且本身具有更好泛化能力的物体检测模型作为基准模型, 解决DAOD问题也是一个明显的趋势.

(5)如何利用视觉提示提升物体检测的跨域迁移能力, 同样也值得研究.

何贞苇(1992—), 男, 博士, 讲师, 硕士生导师, 主要研究方向为深度学习、目标检测、迁移学习、连续学习.

张治龙(2000—), 男, 硕士研究生, 主要研究方向为目标检测、迁移学习.

张磊(1987—), 男, 博士, 教授, 博士生导师, CCF高级会员, 论文通信作者, 主要研究方向为机器智能、计算机视觉、机器学习、模式识别.

— END —

还没关注？点击下方“卡片”关注，获取第一时间资讯

综述推荐

综述推荐 | 基于叙事结构抽象的可视分析方法综述

综述推荐 | 监控场景下基于单帧与视频数据的行人属性识别方法综述及展望

综述推荐 | 面向超级计算机系统的可视化综述

综述推荐 | 数字图像多功能水印综述

综述推荐 | 基于RGB图像的三维人手姿态估计技术综述

综述推荐 | 数字图像多功能水印综述

综述推荐 | 基于条件生成对抗网络的图像翻译综述

综述推荐 | 基于单目RGB数据的三维模板物体跟踪算法综述

综述推荐 | 基于可视分析的训练数据质量提升综述

综述推荐｜数字说话人视频生成综述

综述推荐 | 基于骨架的人体动作识别技术研究进展

综述推荐 | 面向计算机程序的可视化综述

合辑荐读

合辑荐读 | 计算机技术与传统文化论文合辑

合辑荐读 | 几何建模与优化最新论文合辑

合辑荐读 | 目标检测、目标跟踪与重识别最新论文合辑

合辑荐读 | 医学图像处理最新论文合辑

合辑荐读 | 感知与交互最新论文合辑

合辑荐读 | VR/AR/MR最新论文合辑

合辑荐读 | 三维图形计算最新论文合辑

合辑荐读 | 可视化与可视分析最新论文合辑

合辑荐读 | 《计算机辅助设计与图形学学报》最新综述论文

整期论文速览

2023年第12期-CAD几何引擎架构及算法专刊论文速览

声明

本公众号发布的所有原创文章欢迎转发和转载，但必须注明作者和文章出处为《计算机辅助设计与图形学学报》公众号；任何媒体、网站或个人不得对本公众号原创图文进行内容修改或摘编。除本公众号原创的图文之外，本公众号发布的图文旨在学术交流，版权归原作者所有，本公众号将不承担任何法律责任；非原创内容均已对来源作出标注，如有侵权，请留言与本公众号联系，我们将及时处理。《计算机辅助设计与图形学学报》拥有最终解释权。

http://mp.weixin.qq.com/s?__biz=Mzk0NTQyNjMyNw==&mid=2247545514&idx=1&sn=e1c34c08ec5885bf5517727d5dbaa656

计算机辅助设计与图形学学报

《计算机辅助设计与图形学学报》官方平台。本刊创刊于1989年，EI、Scopus、北大核心、CSCD、CSTPCD、CNKI等国内外数据库收录，CCF推荐中文科技期刊A类、计算领域高质量科技期刊T1类。期刊官网：www.jcad.cn。

精选报告 | KLMVis: 基于知识图谱的检索增强语言模型可视分析系统

解码《黑神话：悟空》背后的计算机技术 | CCCF精选

精选报告 | 人机协同决策的异质多智能体路径规划

修订后的《国家自然科学基金条例》公布：加大支持青年人才、扩大依托单位范围、严惩违背科研诚信等行为

科研诚信 | 国家自然科学基金委员会《科研诚信规范手册》解读：明确“应该做”和“不能做”

月度排行 | 最新录用论文10月下载TOP5

精选报告 | 基于再次事件估计的光学厚介质高性能渲染方法

JCST | Computer Graphics & Multimedia领域论文

精选报告 | 质心投票与相关性驱动的单幅图像模型配准

开源成果 | 开源代码/数据集成果合辑

作者指南 | 查询期刊EI收录情况 & 下载论文收录证明

综述推荐 | 大规模三维场景光线追踪渲染方法综述

2024年第8期论文速览

投稿避坑 |《学术论文期刊投稿诚信风险防范指南》发布，让投稿不再有“坑”

月度排行 | 最新录用论文9月下载TOP5

综述推荐 | 神经辐射场的研究现状与展望

梁友栋教授和刘利刚教授分获Chinagraph贡献奖和杰出奖

精选报告 | 面向逆渲染的室内场景光源建模

季度排行 | 网络首发论文第3季度下载TOP10

学术规范 |《学术出版中AIGC使用边界指南2.0》

精选报告 | 室内数字三维场景评估方法

2024年第7期论文速览

会议资讯 | CNCC2024简明日程最新出炉，报名从速

精选报告 | 基于紧凑型线性混合半侧蒙皮权重的神经辐射场人体表示方法

综述推荐 | 数据新闻可视化研究: 理论与实践

2024年全国科普日 | 提升全民科学素质协力建设科技强国

中国科学院发布八条诚信提醒

综述推荐 | 水下图像增强与复原技术进展与展望

开源代码 | 基于循环双向Transformer的伪CT影像生成方法

月度排行 | 最新录用论文8月下载TOP5

2024年第6期论文速览

CCF CAD&CG专委会“启明星”系列论坛

月度排行 | 最新录用论文7月下载TOP5

2024年第5期论文速览

会议资讯 | Chinagraph 2024注册开启早鸟截至9月15日

数据集 | 自然场景盲文字符识别数据集

《计算机辅助设计与图形学学报》虚拟专辑电子版集合

《计算机辅助设计与图形学学报》期刊栏目介绍

开源代码 | 语义扩散对齐的多尺度感知医学图像分割方法

《计算机辅助设计与图形学学报》期刊栏目介绍

【转载】亮点论文（中科院计算所陈熙霖、王瑞平团队）| 开放世界物体识别与检测系统：现状、挑战与展望

综述推荐 | 开放环境下的跨域物体检测综述

月度排行 | 最新录用论文6月下载TOP5

学术资讯 | 2024大模型十大趋势：走进“机器外脑”时代

季度排行 | 网络首发论文第2季度下载TOP10

开源代码 | 基于EfficientNetV2的PCB缺陷检测算法

《计算机辅助设计与图形学学报》科学数据银行数据社区，提供论文关联数据服务

综述推荐 | 基于叙事结构抽象的可视分析方法综述

2024年第4期论文速览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉