【速览】TPAMI 2024 | 基于可复用网络架构生长的连续立体匹配框架

学术   2024-10-17 17:32   北京  
  


















会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~










◆ ◆ ◆ ◆


基于可复用网络架构生长的连续立体匹配框架

张承灏  ,孟高峰  ,樊彬  ,田鲲  ,张兆翔  ,向世明  ,潘春洪  
  中国科学院自动化研究所
  中国科学院香港创新院人工智能与机器人创新中心
  北京科技大学
TPAMI 2024
图像图形领域高质量科技期刊分级目录:T1
撰稿人:张承灏
通讯作者:孟高峰,樊彬
原文标题:Reusable Architecture Growth for Continual Stereo Matching
原文链接:https://arxiv.org/abs/2404.00360
代码链接:https://github.com/chzhang18/RAG


欢迎投稿中国图象图形学学会《速览》栏目,借助学会平台扩大影响力!请将Word文档发送至邮箱:csig-mv@foxmail.com,文章须还没有在其他媒体发布过和同时向其他媒体投稿,谢谢!



摘要

深度估计模型的近期卓越表现得益于卷积神经网络在稠密视差回归中的成功应用。与大多数任务一样,这一过程需要在部署阶段收集涵盖多种场景的训练数据。然而,在实际应用中,训练样本通常是持续获取的,因此持续学习新场景的能力显得尤为重要。为此,本文提出一种连续立体匹配方法,致力于实现:1)持续学习新场景,2)避免遗忘之前学习的场景,以及3)在推理阶段持续预测立体视差。为实现这一目标,本文引入了一种可重用的架构生长(RAG)框架。RAG框架通过任务特定的神经单元搜索和架构生长,在监督和自监督的方式下持续学习新场景。该框架在生长过程中能够高效地重用之前的计算单元,从而维持高可重用性,同时确保良好的性能。此外,本文还提出了一种场景路由模块,可以在推理阶段自适应地选择针对特定场景的架构路径。在多个数据集上的实验结果表明,本文提出的连续立体匹配框架在各种天气、道路和城市环境下表现出色,并在更具挑战性的跨数据集测试中超越了现有的最先进方法。此外,进一步的实验也表明本文方法对未见场景的强适应能力,这为端到端的深度估计模型架构学习和实际部署提供了便利。

背景

立体视觉作为一种模拟人类双眼获取深度信息的技术,近年来在自动驾驶场景中发挥着至关重要的作用。立体视觉又称立体匹配,是计算机视觉领域的重要研究方向之一。尽管深度立体匹配模型在视差标注数据驱动下取得了优异的性能,但是其在部署到未见过的场景时仍会遭遇性能下滑。

想象一辆在下图现实场景中行驶的汽车。汽车可能会经历从多云到雨天,或从城市到乡村的连续场景变化。具有单一固定架构的立体匹配模型几乎无法在所有类型的场景中表现良好。此外,在不遗忘之前学过场景的情况下继续学习新场景也面临很大挑战。因此,一个理想的立体匹配模型应该在训练过程中随着场景数量的增加而生长其结构,并在实际部署时根据场景类型自适应地加载合适的架构路径。此外,在学习新场景时,模型应当避免在之前学过的场景中的性能衰退。

图 1 RAG 框架在真实的连续驾驶场景下部署的示意图

本文介绍由中国科学院自动化研究所孟高峰研究员团队联合北京科技大学樊彬教授提出的基于可复用架构生长的连续立体匹配框架。该框架面向驾驶场景的深度估计问题,利用模型结构生长实现深度立体匹配模型的连续学习和场景自适应。

方法

本文提出的可复用架构生长(Reusable Architecture Growth,RAG)框架示意图如下。

图 2 可复用架构生长框架示意图

可复用架构生长框架包括三个关键要素:在当前任务上的细胞层面搜索,在新任务上的网络层面增长,以及推理时的场景路由模块。

细胞层面搜索:RAG框架中的每个神经单元均可视为一个结构可搜索的细胞,它由一个全连接的有向无环图组成。每个细胞由来自前两层的两个输入节点、三个中间节点和一个输出节点组成。对细胞中的每种操作先赋予相应的候选概率,再采用一种启发式的候选概率更新方式来迭代式地更新每种操作的候选概率,最后选择候选概率最高的操作作为细胞层的最终操作集。

网络层面增长:网络结构层的搜索空间定义为新旧任务的神经单元的组合。对于当前任务,所对应的网络结构包括可复用的旧细胞和在当前任务上搜索出的新细胞构成。所采用的搜索策略和细胞层面搜索策略类似。不过,网络结构的生长不可避免地会增加模型参数。为了尽可能多地选择复用的旧细胞以提高旧细胞的可复用性,同时保持良好的性能,本文在初始化和验证分数两个方面对更新策略进行相应修改。

场景路由:在推理时,需要选择特定场景的网络架构路径以预测连续场景下的双目图像对应的视差。尽管可以由驾驶员手动选择这条路径,但驾驶员通常很难判断当前场景细分为哪种类型的场景。为解决该问题,本文提出了一个场景路由器模块,以自动地为当前场景选择合适的网络架构路径。其主要的技术路线是基于每个场景的自编码器实现的。

值得一提的是,真实场景中的视差标签往往难以获取,在实际中更侧重自监督学习范式。受域自适应立体匹配方法的启发,本文将带有视差标签的合成图像迁移至真实图像的风格,以作为自监督学习的代理监督信息。通过这种方式,本文提出的RAG框架兼顾有监督连续立体匹配学习和自监督连续立体匹配学习。

实验

本文在三个数据集的不同天气和道路场景下与最先进的连续学习方法进行了比较,分别是DrivingStereo数据集的4种天气条件、KITTI raw数据集的4种道路条件,以及Virtual KITTI数据集的5种道路条件。所提方法在各种天气和道路场景的所有三个数据集上都取得了出色的性能。

表 1 各个方法在 DrivingStereo、KITTI raw 和 Virtual KITTI 三个数据集上进行跨场景的有监督连续立体匹配的性能比较。红色和蓝色分别代表相应数据集上的最优结果和次优结果。

进一步在各个数据集的每个单独场景上进行比较,所提方法在所有数据集上的大多数场景上取得了最佳的性能,除了Drivingstereo的雨天场景,Kitti Raw的校园场景和Virtual Kitti的06号场景。这可能是由于受到模块复用性的约束,从之前场景中学到的知识并不总是足以支持模型在新场景下的学习。尽管如此,本文方法仍然在最终的平均误差取得了最佳的结果。

图 3 各个方法在 DrivingStereo、KITTI raw 和 Virtual KITTI 三个数据集上进行有监督的跨

场景连续立体匹配,在每个数据集的子场景中的性能比较

除了在每个数据集上进行跨场景评估,还进一步构造了跨数据集的评估策略,即按照KITTI 2012/2015,DrivingStereo (cloudy),KITTI raw (campus),CityScapes (bremen)的顺序进行连续立体匹配学习。相比于其他方法,所提方法在跨数据集评估上也实现了更好的性能。

表 2 各个方法在跨数据集场景下进行有监督的连续立体匹配的性能比较

在模型结构上,本文方法能够实现平均50%的模型复用率。随着任务数量的增加,在之前任务上学习的神经单元被利用的概率也越高,这表明本文提出的架构生长方式通过模块复用的形式实现了异构场景之间的知识迁移。

图 4 在 DrivingStereo 数据集的 4 种天气场景下架构增长的可视化结果。四种颜色的路径分别代表不同天气下的网络架构和模型推理路径。

进一步将特征网络和匹配网络搜索出来的神经单元结构进行可视化,可以发现多云和晴天两个场景上搜索出来的模型架构是一致的,这表明两个场景是高度相似的。其中,和其他场景区别最大的是雨天场景。

图 5 在 DrivingStereo 数据集的四个天气场景下对搜索到的细胞结构进行可视化。左列为特征网络结构,右列为匹配网络结构。

以上结果均基于有监督连续立体匹配,在自监督连续立体匹配上进行了类似的实验评估。在同数据集跨场景和跨数据集这两种设定上,最终的平均性能均优于对比方法。这说明所提出的RAG框架在有监督和自监督两种学习范式上均具有一致的优越性,体现了框架的可扩展性和鲁棒性。

表 3 各个方法在 DrivingStereo、KITTI raw 和 CityScapes 数据集上进行跨场景的自监督连续立体视匹配的性能比较结果。

表 4 各个方法在进行跨数据集的自监督连续立体视匹配的性能比较结果

在部署时,利用场景路器自适应地选择特定场景的网络架构路径以进行连续视差预测。下图(a)展示了所提出的场景路由器可在各种场景中取得平衡的结果,而对比方法容易在某个场景出现严重误判。下图(b)展示了场景路由器可实现与手动场景选择相当的立体匹配性能。

图 6 (a)场景路由器和 Expert Gate 在各个场景下的分类准确率比较;(b)场景路由器和Expert Gate 以及手动选择在各个场景下的立体匹配性能比较

在讨论部分,本文重点对任务的顺序进行了实验评估和分析,包括根据任务难易程度的由简到难的顺序,根据旧任务是否重新出现作为新任务的重复顺序,以及根据既定任务顺序排列组合的所有顺序。其中,由简到难的顺序揭示了可复用架构生长框架从最简单任务开始学习直到最难任务的顺序能够实现最佳的平均性能,这与人类知识学习的过程是一致的。

图 7 在 DrivingStereo 数据集上不同任务顺序进行有监督(上面两个)和自监督(下面两个)连续立体匹配的性能比较结果,分别为随机顺序、简单任务顺序和困难任务顺序。

最后,本文所提出的RAG框架具有通用性,并不局限于立体匹配任务,但是在连续立体匹配任务上进行了充分的验证。RAG框架还能够扩展到多种类似的密集回归任务或者3D视觉任务上,例如单目深度估计或3D目标检测。更多方法细节和实验结果请参见原文。

结论

本文提出了一种可复用的架构生长框架,以应对连续立体匹配问题。通过利用任务特定的神经单元搜索和通过真实视差真值或合成图像的代理监督进行的架构生长,所提框架能够在学习新场景的同时,不遗忘先前学过的场景,并具备高比例的模型复用率。在实际部署时,提出场景路由器来自适应地选择架构路径,以应对迅速变化的场景,而无需在线梯度更新。在未来的工作中,团队计划探索如何在执行新任务时调整被复用的神经单元,同时克服遗忘现象。这可能会显著减少模型在生长过程中的总体参数量。

参考文献

[1] R. Gomez-Ojeda, F.-A. Moreno, D. Zuniga-Noel, D. Scaramuzza, and J. Gonzalez-Jimenez, “Pl-slam: A stereo slam system through the combination of points and line segments,” IEEE Trans. On Robot., vol. 35, no. 3, pp. 734–746, 2019.

[2] H. Xu and J. Zhang, “Aanet: Adaptive aggregation network for efficient stereo matching,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2020, pp. 1959–1968.

[3] X. Cheng, P. Wang, and R. Yang, “Learning depth with convolutional spatial propagation network,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 42, no. 10, pp. 2361–2379, 2019.

[4] F. Zhang, V. Prisacariu, R. Yang, and P. H. Torr, “Ga-net: Guided aggregation net for end-to-end stereo matching,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2019, pp. 185–194. 

[5] X. Cheng, Y. Zhong, M. Harandi, Y. Dai, X. Chang, T. Drummond, H. Li, and Z. Ge, “Hierarchical neural architecture search for deep stereo matching,” in Proc. Adv. Neural Inf. Process. Syst., 2020, pp.22158–22169.

[6] A. Tonioni, M. Poggi, S. Mattoccia, and L. D. Stefano, “Unsupervised adaptation for deep stereo,” in Proc. IEEE Int. Conf. Comput. Vis., 2017, pp. 1614–1622.

[7] J. Pang, W. Sun, C. Yang, J. Ren, R. Xiao, J. Zeng, and L. Lin, “Zoom and learn: Generalizing deep stereo matching to novel domains,”in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2018, pp. 2070–2079.

[8] R. Liu, C. Yang, W. Sun, X. Wang, and H. Li, “Stereogan: Bridging synthetic-to-real domain gap by joint optimization of domain translation and stereo matching,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2020, pp. 12757–12766.

[9] X. Song, G. Yang, X. Zhu, H. Zhou, Z. Wang, and J. Shi, “Adastereo: a simple and efficient approach for adaptive stereo matching,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2021, pp. 10328–10337.

[10] M. Poggi, A. Tonioni, F. Tosi, S. Mattoccia, and L. Di Stefano,“Continual adaptation for deep stereo,” IEEE Trans. Pattern Anal. Mach. Intell., 2021.

[11] C. Zhang, K. Tian, B. Fan, G. Meng, Z. Zhang, and C. Pan,“Continual stereo matching of continuous driving scenes with growing architecture,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2022, pp. 18901–18910.

[12] Z. Shen, Y. Dai, and Z. Rao, “Cfnet: Cascade and fused cost volume for robust stereo matching,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2021, pp. 13906–13915.

[13] V. Tankovich, C. Hane, Y. Zhang, A. Kowdle, S. Fanello, and S. Bouaziz, “Hitnet: Hierarchical iterative tile refinement network for real-time stereo matching,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2021, pp. 14362–14372.

[14] Z. Li, X. Liu, N. Drenkow, A. Ding, F. X. Creighton, R. H. Taylor, and M. Unberath, “Revisiting stereo depth estimation from a sequence-to-sequence perspective with transformers,” in Proc. IEEE Int. Conf. Comput. Vis., 2021, pp. 6197–6206.




图像图形领域高质量科技期刊分级目录
中国图象图形学学会科普活动、素材征集通知
中国图象图形学学会高校志愿者招募
中国图象图形学学会关于组织开展科技成果评价的通知
2024年CSIG图像图形中国行承办方征集中

中国图象图形学学会CSIG
发布图象图形技术的理论研究、应用推广、科学普及、专业培训、技术咨询、学术交流、出版专业书刊等信息,促进该学科技术的发展和在国民经济各个领域的推广应用。
 最新文章