本文探究了从封闭环境到开放世界环境的转变及其对视觉感知(集中于物体识别和检测)与深度学习领域的影响. 在开放世界环境中,系统软件需适应不断变化的环境和需求,这为深度学习方法带来新挑战. 特别是,开放世界视觉感知要求系统理解和处理训练阶段未见的环境和对象,这超出了传统封闭系统的能力.
本文首先讨论了技术进步带来的动态、自适应系统需求,突出了开放系统相较封闭系统的优势. 接着,深入探讨了开放世界的定义和现有工作,涵盖开集学习、零样本学习、小样本学习、长尾学习、增量学习等五个开放维度. 在开放世界物体识别方面,分析了每个维度的核心挑战,并为每个任务数据集提供了量化的评价指标. 对于开放世界物体检测,讨论了检测相比识别的新增挑战,如遮挡、尺度、姿态、共生关系、背景干扰等,并强调了仿真环境在构建开放世界物体检测数据集中的重要性. 最后,强调开放世界概念为深度学习带来的新视角和机遇,是推动技术进步和深入理解世界的机会,为未来研究提供参考.
开放世界物体检测同样是一个综合任务,包含开集物体检测、零样本物体检测、小样本物体检测、长尾物体检测和增量物体检测等多个单一开放维度的子任务. 开集物体检测方法可以分为非生成式和生成式2种类型. 早期研究采用的非生成式方法通过把已知类别暂时视为未知类别,来训练未知类别的分类器,或者通过比较已知类别的预测概率值与一个预定的阈值来判断一个实例是否属于已知类别. 而最新的研究使用生成式方法则通过创造未知类别的样本来进行不确定性的评估. 零样本物体检测方法同样也分为非生成式和生成式2种类型,非生成式主要通过将视觉特征投影至语义空间做判别得到,但是在这种范式下未知类不参与训练,会导致最终模型的预测偏向已知类,最新的研究通常采用生成式的方法,通过未知类的类别语义合成对应的视觉特征参与训练,取得了良好的效果. 小样本物体检测方法主要分为元学习和微调两种类型,元学习的方式训练成本小,微调的方式实现简单. 长尾物体检测中同样通常采用重采样或者调整损失函数的方式,使模型更关注尾部类别. 增量物体检测主要解决的是灾难性遗忘问题,希望模型学习新类的同时防止旧类遗忘,目前的工作一般采用特征蒸馏或者样例回放的方式防止遗忘. 开放世界检测方法分类总览如图3所示.
总的来说,所谓的开放,超越传统封闭集的概念,是对真实世界动态变化性的一种模拟. 根据模拟的角度不同,目前主要有五种常见的任务设定:开集、零样本、小样本、长尾、增量,在本文中本文称之为开放性维度. 开集关注识别训练中未见过的类别,反映了现实世界中不断出现新物体的情况. 零样本强调在没有直接样本支持的情况下识别新类别,适应现实世界中未知物体的出现. 小样本学习涉及从极少量样本中快速学习新类别的能力,对于常见的现实情景中仅有少量数据的新物体类别至关重要. 长尾学习应对现实世界中常见类别和罕见类别的不平衡分布,能够处理稀有物体的识别. 增量学习强调模型在学习新知识时保持对旧知识的记忆,适应环境的持续变化. 目前各个维度的开放性任务大多都是孤立研究的,近来有一种趋势,方法研究从单一维度转向复合维度,但是目前复合维度最多只考虑了两个,对于更为复杂的综合了更多开放性维度的任务设定则缺乏考虑. 在本文中,提出囊括上述5个主要开放性维度的广义开放世界物体识别与检测任务,超越了以往工作中的开放性任务设定,缩小了和真实世界的差距.
现有的广义开放世界子任务数据集对常用的物体识别与检测数据集(如COCO)进行简单的类别划分,这种方法无法全面评估模型在开放世界条件下的性能. 这种单一的数据集构造方式不仅限制了对方法缺陷的诊断,也可能导致模型对特定训练场景产生偏见,使其在遇到新场景时性能下降. 由于数据集的收集、处理和标注成本较高(尤其是检测数据集),通过网络爬取和人工标注的方式构建具有不同分布和划分的数据集变得不现实. 不同于之前的做法,本文提出一种新方法充分利用仿真平台(如AI2-THOR)低成本获取大量标注好的数据,此外本文解耦了广义开放世界的5个核心难度指标,并通过调整指标数值采样由AI2-THOR产生的元数据生成任务特定的数据.
如图4所示,为了更贴近真实世界的复杂性和开放性,开集、零样本、小样本、长尾以及增量学习等多个开放性维度的研究应运而生. 这些维度分别关注不同的挑战:开集学习针对未知类别的识别;零样本和小样本学习聚焦于在极少量或无样本的情况下学习新类别;长尾学习应对类别分布的不平衡;增量学习旨在模型学习新知识的同时保持对旧知识的记忆,适应环境的持续变化. 虽然这些维度各自取得了一定的进展,但它们多数局限于单一维度的探索(比如只考虑开集设定)或者只考虑两种复合维度(比如开放世界,包含增量和开集两个开放性维度),缺少一种综合考虑更多开放性维度的全面视角. 针对该问题,本文从更宏观的角度提出包含五个开放性维度的更加综合的设定.
如图5所示,为解决当前开放世界物体识别任务评测基准中存在的问题,本文引入了一种新的广义开放世界评估范式. 该范式首先将挑战细分为五个关键的开放性维度,每个维度都代表了开放世界场景中的一个核心要素. 在此基础上,本文提出了一个综合框架,旨在全面涵盖所有开放性维度.
通过精心设计的核心难度指标,本文可以为每个任务生成具有不同难度的数据. 这些指标不仅可以用于准确评价各个任务数据集的难度,而且还可以用于根据需求生成自定义难度的数据集. 本文通过解耦开放世界设定下各子任务的相关维度指标,使得数据集的生成既可控制又灵活,满足不同研究和实践的需求. 这种方法的引入,不仅是对现有评测方法的一大改进,也为开放世界物体识别与检测领域的研究带来了新的视角和可能性. 这一全新的评估范式,对于深入理解和有效应对开放世界物体识别与检测中的复杂性和多样性,具有重要的意义.
本文探索利用仿真环境来构建开放世界物体检测数据集的独特优势. 仿真环境提供了一个可控且灵活的平台,使研究人员能够创造出接近现实世界的多变场景,这在传统数据集中是难以实现的,如图7所示,通过操控仿真环境可以控制光照、纹理、位姿等变化. 以下是使用仿真环境构建数据集的6个关键优势:
1)多样性. 仿真环境可以渲染出多种背景、光照条件和天气状况下的场景,增强数据集的多样性,从而提高模型的泛化能力.
2)可定制性. 研究人员可以根据需要定制场景的具体参数,如物体的大小、颜色、纹理等,以适应特定的测试或训练需求.
3)复杂场景的生成. 仿真技术能够生成包含复杂交互和物体关系的场景.
4)标注成本的减少. 在仿真环境中生成的数据通常可以自动获取精确的标注信息,如边界框、分割掩码和物体类别,从而减少了人工标注的成本和时间,如图8所示.
5)未知类别的引入. 仿真环境允许研究人员设计并引入未在现实世界中出现过的虚构类别,为开放集和零样本学习提供了理想的测试平台.
6)遮挡和姿态变化的模拟. 仿真环境可以特意设计场景以模拟不同程度的遮挡和各种姿态变化,为物体检测算法提供更为严峻的测试条件.
利用这些优势,仿真环境可以成为开放世界物体检测研究的强大工具. 它不仅能够支持传统物体检测任务,还能够帮助研究人员探索新的方法,定义新的开放性任务,收集和构建自定义的开放世界物体检测数据集用以促进方法研究,从而解决开放世界环境中未知的和不断演变的挑战. 通过这种方式,仿真环境极大地拓展了数据集的边界,推动了开放世界物体识别与检测系统的进步. 未来的研究可以在仿真环境中不断探索新的算法和模型,从而不断推进开放世界物体检测技术的发展.
在表1中,本文比较了3种零样本物体检测方法DPIF、RRFS 和 ZSDSCR,在不同程度的迁移性(0.30, 0.46, 0.57)下的表现. 这些方法的主要性能指标包括已见类的平均精度(AP50s)、未见类的平均精度(AP50u). 对于现有方法,较小的迁移性提供了更大的区分能力,未见类的AP最多相差2个百分点. 在研究中,零样本检测的主要目标是在未见类别上获得较好的性能,因为这直接反映了模型对于新颖类别的识别能力. 尽管对已见类别的表现在某种程度上也是重要的,但它并不是我们评估模型性能的主要标准. 在表1中,虽然DPIF模型在中等程度迁移性时的整体表现最优,但我们发现在未见类别上的表现并不总是与此相符. 这表明即使在已见类别上取得了相对较好的结果,模型在未见类别上的表现仍然是不确定的,这与我们的研究重点相契合. 我们的结论侧重于分析模型在未见类别上的表现,而不是仅仅基于总体性能.
在表2中,本文比较了2种长尾物体检测方法EQLV2和 Seesaw,在不同程度的不均衡性(0.1, 0.5, 0.9)下的表现. 对于长尾检测,极端平衡(为0.1)或极端不平衡的分布(为0.9)均不利于有效区分现有方法,意味着过高或过低的难度级别缺乏明显的区分性. 一个值为0.5的设置更适合区分当前的方法. 当然,更精确的数值需要进一步的实验来验证.
上述实验结果表明,迁移性、不均衡性等开放性指标的变化可能在某些情况下对模型的性能造成一定影响. 根据所分析的特定数据集和任务(仿真数据上的长尾、零样本物体检测任务),我们观察到当数据分布呈现更为明显的长尾特性时、或者已见类和未见类的迁移性更小时,模型的性能往往有所下降. 然而,我们也认识到不均衡性、迁移性等开放性指标对性能的具体影响可能因任务、数据集的不同而存在变化. 因此,上述结论需要在更广泛的实验中进一步验证,并考虑到在不同任务和数据条件下可能出现的多变性.
1)随着开放世界系统在关键领域的应用增多,如自动驾驶、医疗诊断等,其决策过程的透明度和可解释性变得越来越重要. 未来的研究需要着力于提升模型的解释能力,使非专业用户也能理解模型的决策逻辑,从而提高人们对这些系统的信任度;
2)开放世界系统将面临来自不同源的、形式多样的数据. 因此,未来的研究方向之一是如何有效地整合视觉、语音、文本等多种类型的数据,实现跨领域的学习和知识迁移. 这不仅可以提高模型的泛化能力,还可以拓宽其应用范围;
3)随着开放世界系统在社会生活中的应用日益广泛,如何保护用户数据的安全和隐私成为一个重要问题. 未来的研究需要探索新的算法和技术,以确保在数据收集、处理和存储过程中用户的隐私得到有效保护,同时也要保证系统本身免受恶意攻击;
4)对于在资源受限的设备上运行的开放世界系统,如智能手机和边缘计算设备,未来的研究将重点关注开发低能耗、高效能的算法. 这不仅包括提升算法的计算效率,还包括优化模型的大小,使其能在不牺牲性能的前提下,在资源有限的设备上顺畅运行.
通过解决这些关键问题,我们可以推动开放世界系统在更广泛的应用场景中发挥更大的作用.
— END —
还没关注?点击下方“卡片”关注,获取第一时间资讯
本公众号发布的所有原创文章欢迎转发和转载,但必须注明作者和文章出处为《计算机辅助设计与图形学学报》公众号;任何媒体、网站或个人不得对本公众号原创图文进行内容修改或摘编。除本公众号原创的图文之外,本公众号发布的图文旨在学术交流,版权归原作者所有,本公众号将不承担任何法律责任;非原创内容均已对来源作出标注,如有侵权,请留言与本公众号联系,我们将及时处理。《计算机辅助设计与图形学学报》拥有最终解释权。