【转载】亮点论文(中科院计算所陈熙霖、王瑞平团队)| 开放世界物体识别与检测系统:现状、挑战与展望

学术   2024-07-19 17:09   北京  


开放世界物体识别与检测系统:现状、挑战与展望
 
聂晖,王瑞平,陈熙霖


 
摘要

 

     本文探究了从封闭环境到开放世界环境的转变及其对视觉感知(集中于物体识别和检测)与深度学习领域的影响. 在开放世界环境中,系统软件需适应不断变化的环境和需求,这为深度学习方法带来新挑战. 特别是,开放世界视觉感知要求系统理解和处理训练阶段未见的环境和对象,这超出了传统封闭系统的能力.

       本文首先讨论了技术进步带来的动态、自适应系统需求,突出了开放系统相较封闭系统的优势. 接着,深入探讨了开放世界的定义和现有工作,涵盖开集学习、零样本学习、小样本学习、长尾学习、增量学习等五个开放维度. 在开放世界物体识别方面,分析了每个维度的核心挑战,并为每个任务数据集提供了量化的评价指标. 对于开放世界物体检测,讨论了检测相比识别的新增挑战,如遮挡、尺度、姿态、共生关系、背景干扰等,并强调了仿真环境在构建开放世界物体检测数据集中的重要性. 最后,强调开放世界概念为深度学习带来的新视角和机遇,是推动技术进步和深入理解世界的机会,为未来研究提供参考.

 
1 从封闭走向开放
 
在信息时代的浪潮中,物体识别与检测系统经历了从封闭到开放的重要转变. 传统上,物体识别与检测系统依赖于封闭的、标注完备的数据集如ImageNet、COCO以及Objects365等进行训练,这些数据集为系统提供了丰富而准确的标签信息. 然而,这种封闭环境的数据集存在明显的局限性,包括但不限于类别的封闭性、场景的静态性和环境的理想化,这使得模型难以应对现实世界的多样性和复杂性.
随着技术的发展,开放世界物体识别与检测系统应运而生,它要求模型能够识别和理解在训练阶段未出现过的环境和对象. 这种系统面对的挑战包括类别的动态增加、场景的实时变化以及环境的不确定性. 在开放世界条件下,物体识别与检测系统必须具备更高的适应性和鲁棒性,例如能够在复杂的办公或家居场景中,即使遇到未知物体或遭受视角、光照变化的影响,也能准确地完成物体的识别与检测任务. 
2 国内外相关研究

 
开放世界物体识别是一个综合任务,包含开集物体识别、零样本物体识别、小样本物体识别、长尾物体识别和增量物体识别等多个单一开放维度的子任务. 开集识别可分为3类:决策改进类,通过更新神经网络输出层,优化决策过程,区分已知与未知类别,减少误分类;表示优化类,通过改进网络特征表示,结合监督与无监督技术提取判别性特征,提升对未知类别的识别;数据生成类,使用GANs生成或增广数据,模拟未知类,训练模型以识别新类别. 零样本识别方法分为两类,非生成式方法将视觉特征投影至语义空间或者公共空间做判别,生成式方法利用语义信息生成未知类视觉特征来训练. 小样本识别可分为3类:度量学习法,通过大样本类别的数据学习样本间相似性,再应用于小样本类别的分类;样本生成法,在大样本类别上学习增广技术后用于小样本类别的数据增广,解决样本稀缺;元学习法,通过大样本类别的训练数据学习优化策略和初始化,以快速适应小样本任务. 在长尾识别任务中,常通过重采样技术或修改损失函数来增加模型对少数类别的关注. 增量识别方法主要分为3个类别,以应对在学习新任务时发生的“灾难性遗忘”问题,结构型策略通过设计新型的网络架构或集成附加网络模块,旨在有效减缓遗忘现象,正则化策略在训练过程中引入特定的“防遗忘”约束条件,以降低遗忘的可能性,这些约束根据施加的位置不同,可进一步细分为权重正则化和激活正则化,回顾型策略通过保存并定期复习旧任务的关键信息来抑制遗忘,这一信息可通过保留代表性旧类样本或利用能够表征旧数据分布的生成模型来实现. 开放世界识别方法分类总览如图2所示.

开放世界物体检测同样是一个综合任务,包含开集物体检测、零样本物体检测、小样本物体检测、长尾物体检测和增量物体检测等多个单一开放维度的子任务. 开集物体检测方法可以分为非生成式和生成式2种类型. 早期研究采用的非生成式方法通过把已知类别暂时视为未知类别,来训练未知类别的分类器,或者通过比较已知类别的预测概率值与一个预定的阈值来判断一个实例是否属于已知类别. 而最新的研究使用生成式方法则通过创造未知类别的样本来进行不确定性的评估. 零样本物体检测方法同样也分为非生成式和生成式2种类型,非生成式主要通过将视觉特征投影至语义空间做判别得到,但是在这种范式下未知类不参与训练,会导致最终模型的预测偏向已知类,最新的研究通常采用生成式的方法,通过未知类的类别语义合成对应的视觉特征参与训练,取得了良好的效果. 小样本物体检测方法主要分为元学习和微调两种类型,元学习的方式训练成本小,微调的方式实现简单. 长尾物体检测中同样通常采用重采样或者调整损失函数的方式,使模型更关注尾部类别. 增量物体检测主要解决的是灾难性遗忘问题,希望模型学习新类的同时防止旧类遗忘,目前的工作一般采用特征蒸馏或者样例回放的方式防止遗忘. 开放世界检测方法分类总览如图3所示.

总的来说,所谓的开放,超越传统封闭集的概念,是对真实世界动态变化性的一种模拟. 根据模拟的角度不同,目前主要有五种常见的任务设定:开集、零样本、小样本、长尾、增量,在本文中本文称之为开放性维度. 开集关注识别训练中未见过的类别,反映了现实世界中不断出现新物体的情况. 零样本强调在没有直接样本支持的情况下识别新类别,适应现实世界中未知物体的出现. 小样本学习涉及从极少量样本中快速学习新类别的能力,对于常见的现实情景中仅有少量数据的新物体类别至关重要. 长尾学习应对现实世界中常见类别和罕见类别的不平衡分布,能够处理稀有物体的识别. 增量学习强调模型在学习新知识时保持对旧知识的记忆,适应环境的持续变化. 目前各个维度的开放性任务大多都是孤立研究的,近来有一种趋势,方法研究从单一维度转向复合维度,但是目前复合维度最多只考虑了两个,对于更为复杂的综合了更多开放性维度的任务设定则缺乏考虑. 在本文中,提出囊括上述5个主要开放性维度的广义开放世界物体识别与检测任务,超越了以往工作中的开放性任务设定,缩小了和真实世界的差距.

现有的广义开放世界子任务数据集对常用的物体识别与检测数据集(如COCO)进行简单的类别划分,这种方法无法全面评估模型在开放世界条件下的性能. 这种单一的数据集构造方式不仅限制了对方法缺陷的诊断,也可能导致模型对特定训练场景产生偏见,使其在遇到新场景时性能下降. 由于数据集的收集、处理和标注成本较高(尤其是检测数据集),通过网络爬取和人工标注的方式构建具有不同分布和划分的数据集变得不现实. 不同于之前的做法,本文提出一种新方法充分利用仿真平台(如AI2-THOR)低成本获取大量标注好的数据,此外本文解耦了广义开放世界的5个核心难度指标,并通过调整指标数值采样由AI2-THOR产生的元数据生成任务特定的数据.

3 开放世界物体识别:挑战、实践与展望

 

如图4所示,为了更贴近真实世界的复杂性和开放性,开集、零样本、小样本、长尾以及增量学习等多个开放性维度的研究应运而生. 这些维度分别关注不同的挑战:开集学习针对未知类别的识别;零样本和小样本学习聚焦于在极少量或无样本的情况下学习新类别;长尾学习应对类别分布的不平衡;增量学习旨在模型学习新知识的同时保持对旧知识的记忆,适应环境的持续变化. 虽然这些维度各自取得了一定的进展,但它们多数局限于单一维度的探索(比如只考虑开集设定)或者只考虑两种复合维度(比如开放世界,包含增量和开集两个开放性维度),缺少一种综合考虑更多开放性维度的全面视角. 针对该问题,本文从更宏观的角度提出包含五个开放性维度的更加综合的设定.

如图5所示,为解决当前开放世界物体识别任务评测基准中存在的问题,本文引入了一种新的广义开放世界评估范式. 该范式首先将挑战细分为五个关键的开放性维度,每个维度都代表了开放世界场景中的一个核心要素. 在此基础上,本文提出了一个综合框架,旨在全面涵盖所有开放性维度.

通过精心设计的核心难度指标,本文可以为每个任务生成具有不同难度的数据. 这些指标不仅可以用于准确评价各个任务数据集的难度,而且还可以用于根据需求生成自定义难度的数据集. 本文通过解耦开放世界设定下各子任务的相关维度指标,使得数据集的生成既可控制又灵活,满足不同研究和实践的需求. 这种方法的引入,不仅是对现有评测方法的一大改进,也为开放世界物体识别与检测领域的研究带来了新的视角和可能性. 这一全新的评估范式,对于深入理解和有效应对开放世界物体识别与检测中的复杂性和多样性,具有重要的意义.

综上所述,尽管当前的评价指标已经提供了对开放世界物体识别与检测系统评估的初步方法,但随着技术的进步和应用需求的发展,本文预见到在评价指标设计方面将会有更广阔的探索空间和发展潜力. 未来的研究不仅将继续完善现有的指标,还将探索新的指标,以更全面地评价和指导开放世界物体识别与检测系统的研究和实践. 在探索开放世界的物体识别的挑战时,我们了解到类别变化是核心难点之一. 为了适应这种不断变化的分类环境,我们必须开发出能够持续进化和适应新类别的系统. 然而,类别的变化仅仅是开放世界挑战的冰山一角. 下一节将继续本节的讨论,并将关注点扩展到如何在实际应用中精确地定位和识别这些不断变化的类别. 我们将详细探讨开放世界环境中物体检测所面临的独特问题,尤其是在复杂场景中对物体进行精确定位的挑战.
 
4 开放世界物体检测:挑战、实践与展望

 
现有的开放性物体检测方法通常依赖于对已有数据集的划分来实现,比如零样本物体检测中通常将ImageNet或COCO数据集中的类别划分为已见类和未见类. 然而,这些数据集通常只能提供有限的场景变化,且其数据分布往往固定并偏向于特定的几个类别,这使得模型难以适应现实世界中类别数量不一、不断变化和新类别不断出现的开放性环境. 从现有数据源(例如COCO)生成结合多维度和不同难度级别的高质量数据集,带来了显著的挑战. 这种方法可能受限于现有的类别分布和实例数量,通常缺乏稀有对象和场景,且可能存在未标注对象的问题,如图6所示(这将阻碍物体检测器发现新类别). 此外,搜集大量新数据并对其进行标注的成本极高.

     本文探索利用仿真环境来构建开放世界物体检测数据集的独特优势. 仿真环境提供了一个可控且灵活的平台,使研究人员能够创造出接近现实世界的多变场景,这在传统数据集中是难以实现的,如图7所示,通过操控仿真环境可以控制光照、纹理、位姿等变化. 以下是使用仿真环境构建数据集的6个关键优势:

1)多样性. 仿真环境可以渲染出多种背景、光照条件和天气状况下的场景,增强数据集的多样性,从而提高模型的泛化能力.

2)可定制性. 研究人员可以根据需要定制场景的具体参数,如物体的大小、颜色、纹理等,以适应特定的测试或训练需求.

3)复杂场景的生成. 仿真技术能够生成包含复杂交互和物体关系的场景.

4)标注成本的减少. 在仿真环境中生成的数据通常可以自动获取精确的标注信息,如边界框、分割掩码和物体类别,从而减少了人工标注的成本和时间,如图8所示.

5)未知类别的引入. 仿真环境允许研究人员设计并引入未在现实世界中出现过的虚构类别,为开放集和零样本学习提供了理想的测试平台.

6)遮挡和姿态变化的模拟. 仿真环境可以特意设计场景以模拟不同程度的遮挡和各种姿态变化,为物体检测算法提供更为严峻的测试条件.

利用这些优势,仿真环境可以成为开放世界物体检测研究的强大工具. 它不仅能够支持传统物体检测任务,还能够帮助研究人员探索新的方法,定义新的开放性任务,收集和构建自定义的开放世界物体检测数据集用以促进方法研究,从而解决开放世界环境中未知的和不断演变的挑战. 通过这种方式,仿真环境极大地拓展了数据集的边界,推动了开放世界物体识别与检测系统的进步. 未来的研究可以在仿真环境中不断探索新的算法和模型,从而不断推进开放世界物体检测技术的发展.

在表1中,本文比较了3种零样本物体检测方法DPIF、RRFS 和 ZSDSCR,在不同程度的迁移性(0.30, 0.46, 0.57)下的表现. 这些方法的主要性能指标包括已见类的平均精度(AP50s)、未见类的平均精度(AP50u). 对于现有方法,较小的迁移性提供了更大的区分能力,未见类的AP最多相差2个百分点. 在研究中,零样本检测的主要目标是在未见类别上获得较好的性能,因为这直接反映了模型对于新颖类别的识别能力. 尽管对已见类别的表现在某种程度上也是重要的,但它并不是我们评估模型性能的主要标准. 在表1中,虽然DPIF模型在中等程度迁移性时的整体表现最优,但我们发现在未见类别上的表现并不总是与此相符. 这表明即使在已见类别上取得了相对较好的结果,模型在未见类别上的表现仍然是不确定的,这与我们的研究重点相契合. 我们的结论侧重于分析模型在未见类别上的表现,而不是仅仅基于总体性能.

在表2中,本文比较了2种长尾物体检测方法EQLV2和 Seesaw,在不同程度的不均衡性(0.1, 0.5, 0.9)下的表现. 对于长尾检测,极端平衡(为0.1)或极端不平衡的分布(为0.9)均不利于有效区分现有方法,意味着过高或过低的难度级别缺乏明显的区分性. 一个值为0.5的设置更适合区分当前的方法. 当然,更精确的数值需要进一步的实验来验证.

上述实验结果表明,迁移性、不均衡性等开放性指标的变化可能在某些情况下对模型的性能造成一定影响. 根据所分析的特定数据集和任务(仿真数据上的长尾、零样本物体检测任务),我们观察到当数据分布呈现更为明显的长尾特性时、或者已见类和未见类的迁移性更小时,模型的性能往往有所下降. 然而,我们也认识到不均衡性、迁移性等开放性指标对性能的具体影响可能因任务、数据集的不同而存在变化. 因此,上述结论需要在更广泛的实验中进一步验证,并考虑到在不同任务和数据条件下可能出现的多变性.

此外,本文进一步在真实的物体检测数据集上做了零样本物体检测实验,原始数据集为PASCAL VOC数据,实验中将20个类别划分成16个已见类和4个未见类,训练集只包含已见类数据,剔除了包含未见类的图片,实验结果如表3所示,实验结论与在仿真数据上的一致,即:迁移性可能在某些情况下对未见类的性能产生有利的影响. 根据所分析的特定数据集和任务(真实数据上的零样本物体检测任务),观察到当数据分布呈现更为明显的迁移性时,未见类的性能会有所提升.

本文对该项研究的未来发展和改进进行了深入的思考. 仿真环境作为一种强大的工具,在开放世界物体检测的研究和应用中发挥着重要作用. 然而,当前的仿真环境仍存在一些局限性,需要进一步的改进和发展. 目前大多数仿真环境主要集中在室内场景的模拟. 未来,考虑到开放世界环境的多样性,本文需要扩展仿真环境,包括更加丰富和复杂的室外场景. 比如自然环境(如森林、沙漠)、城市景观(如街道、广场)和特殊环境(如工业区、灾难现场). 这样的扩展将为物体检测算法提供更加全面和现实的测试环境. 当前的仿真环境主要依赖于传统的3D渲染技术,这在一定程度上限制了环境和对象的多样性和真实感. 未来,可以考虑将仿真方法与最新的生成技术相结合,例如扩散模型. 这种方法可以利用深度学习模型生成更加逼真、多样化的图像和场景,提高仿真环境的质量和效果. 综上所述,虽然当前的仿真环境已经为开放世界物体检测提供了宝贵的支持,但未来的发展方向将是更加广阔和多元化. 通过不断地技术创新和改进,仿真环境将成为开放世界物体检测研究的一个更加强大和有效的工具.
5 总结和展望
 
本文深入探讨了开放世界物体识别与检测问题,并指出了对于一个综合性评测框架的迫切需求. 这样的框架能够有效地应对这一动态变化领域所提出的多样化挑战. 目前,尽管开集、零样本、小样本、长尾和增量学习各自在其领域取得了良好进展,但其各自的评估环境仍相对割裂且不够全面. 这种局限性,很大程度上是由于常规数据集的划分所限. 本文所提出的方法通过解耦并构建跨五个开放维度的核心难度指标,创新地定义了广义开放世界的多样化任务,为深入思考这一错综复杂和广阔的研究领域提供了新的视角.
利用AI2-THOR仿真平台,本文成功生成了一个多样化的开放世界物体检测数据集,降低了与传统数据收集方法所需的高昂成本和资源需求. 本文通过模拟各种环境条件和物体变化,丰富了数据集,使其更加贴近真实世界的不可预测性和多样性. 这为开放世界物体识别与检测模型的评估提供了一个更准确、更为全面的基准数据集.
本文通过实验验证了所构建的仿真数据集和所提出的度量标准的有效性和实用性. 后续工作将集中于提升仿真环境的真实感和多样性,以及开发更精细和全面的评价指标.
开放世界物体识别与检测系统目前在类别的开放性(开集、零样本、小样本、长尾、增量)方面已经逐渐走向统一,由只关注单一维度逐步走向关注复合维度,本文进一步考虑涵盖五个开放性维度的设定. 开放世界系统的未来研究将围绕提升系统的解释性、多模态学习能力、安全性和效率等方面展开:

     1)随着开放世界系统在关键领域的应用增多,如自动驾驶、医疗诊断等,其决策过程的透明度和可解释性变得越来越重要. 未来的研究需要着力于提升模型的解释能力,使非专业用户也能理解模型的决策逻辑,从而提高人们对这些系统的信任度;

        2)开放世界系统将面临来自不同源的、形式多样的数据. 因此,未来的研究方向之一是如何有效地整合视觉、语音、文本等多种类型的数据,实现跨领域的学习和知识迁移. 这不仅可以提高模型的泛化能力,还可以拓宽其应用范围;

        3)随着开放世界系统在社会生活中的应用日益广泛,如何保护用户数据的安全和隐私成为一个重要问题. 未来的研究需要探索新的算法和技术,以确保在数据收集、处理和存储过程中用户的隐私得到有效保护,同时也要保证系统本身免受恶意攻击;

       4)对于在资源受限的设备上运行的开放世界系统,如智能手机和边缘计算设备,未来的研究将重点关注开发低能耗、高效能的算法. 这不仅包括提升算法的计算效率,还包括优化模型的大小,使其能在不牺牲性能的前提下,在资源有限的设备上顺畅运行. 

       通过解决这些关键问题,我们可以推动开放世界系统在更广泛的应用场景中发挥更大的作用.

 引用格式


聂晖, 王瑞平, 陈熙霖. 开放世界物体识别与检测系统:现状、挑战与展望[J]. 计算机研究与发展. DOI: 10.7544/issn1000-1239.202440054

Nie Hui, Wang Ruiping, Chen Xilin. Open World Object Recognition and Detection Systems: Landscapes, Challenges and Prospects[J]. Journal of Computer Research and Development. DOI: 10.7544/issn1000-1239.202440054

 

扫码可获取全




作者简介




聂 晖


1996 年生. 博士研究生. 主要研究方向开放世界物体检测、计算机视觉.

王瑞平


1981 年生. 博士,教授,博士生导师. 主要研究方向为计算机视觉、模式识别和机器学习.

陈熙霖


1965 年生. 博士,教授,博士生导师. 主要研究方向为计算机视觉、模式识别、图像处理和多模式人机接口. 


【前沿亮点】是《计算机研究与发展》2023年新开设的精品栏目,主要报道支撑我国计算机领域重点方向发展的自主研发成果或者重要的原创性研究成果。快评快发。发表时邀请同行专家进行评述。

栏目介绍





专家评述


査红彬. 真实场景中的物体识别与环境理解:开放世界的视觉问题[J]. 计算机研究与发展. DOI: 10.7544/issn1000-1239.ps20240901




综述推荐 | 开放环境下的跨域物体检测综述


综述推荐 | 面向超级计算机系统的可视化综述



— END —



还没关注?点击下方“卡片”关注,获取第一时间资讯



网络首发下载TOP10      


季度排行 | 网络首发论文第2季度下载TOP10

季度排行 | 网络首发论文第1季度下载TOP10


最新录用下载TOP5      


月度排行 | 最新录用论文6月下载TOP5

月度排行 | 最新录用论文5月下载TOP5

月度排行 | 最新录用论文4月下载TOP5

月度排行 | 最新录用论文3月下载TOP5

月度排行 | 最新录用论文2月下载TOP5

月度排行 | 最新录用论文1月下载TOP5


综述推荐      


综述推荐 | 开放环境下的跨域物体检测综述

综述推荐 | 基于叙事结构抽象的可视分析方法综述

综述推荐 | 监控场景下基于单帧与视频数据的行人属性识别方法综述及展望

综述推荐 | 面向超级计算机系统的可视化综述

综述推荐 | 数字图像多功能水印综述

综述推荐 | 基于RGB图像的三维人手姿态估计技术综述

综述推荐 | 数字图像多功能水印综述

综述推荐 | 基于条件生成对抗网络的图像翻译综述

综述推荐 | 基于单目RGB数据的三维模板物体跟踪算法综述

综述推荐 | 基于可视分析的训练数据质量提升综述

综述推荐|数字说话人视频生成综述

综述推荐 | 基于骨架的人体动作识别技术研究进展

综述推荐 | 面向计算机程序的可视化综述

合辑荐读      


合辑荐读 | 计算机技术与传统文化论文合辑

合辑荐读 | 几何建模与优化最新论文合辑

合辑荐读 | 目标检测、目标跟踪与重识别最新论文合辑

合辑荐读 | 医学图像处理最新论文合辑

合辑荐读 | 感知与交互最新论文合辑

合辑荐读 | VR/AR/MR最新论文合辑

合辑荐读 | 三维图形计算最新论文合辑

合辑荐读 | 可视化与可视分析最新论文合辑

合辑荐读 | 《计算机辅助设计与图形学学报》最新综述论文


整期论文速览


2024年第4期论文速览

2024年第3期论文速览

2024年第2期论文速览

2024年第1期论文速览

2023年第12期-CAD几何引擎架构及算法专刊论文速览

2023年第11期论文速览

2023年第10期论文速览

2023年第9期论文速览

2023年第8期论文速览

2023年第7期论文速览

2023年第6期论文速览

2023年第5期论文速览




声明

本公众号发布的所有原创文章欢迎转发和转载,但必须注明作者和文章出处为《计算机辅助设计与图形学学报》公众号;任何媒体、网站或个人不得对本公众号原创图文进行内容修改或摘编。除本公众号原创的图文之外,本公众号发布的图文旨在学术交流,版权归原作者所有,本公众号将不承担任何法律责任;非原创内容均已对来源作出标注,如有侵权,请留言与本公众号联系,我们将及时处理。《计算机辅助设计与图形学学报》拥有最终解释权。




计算机辅助设计与图形学学报
《计算机辅助设计与图形学学报》官方平台。本刊创刊于1989年,EI、Scopus、北大核心、CSCD、CSTPCD、CNKI等国内外数据库收录,CCF推荐中文科技期刊A类、计算领域高质量科技期刊T1类。期刊官网:www.jcad.cn。
 最新文章