感知专题 | Transformer+CNN助力全天候、自监督、单目深度估计(Neurocomputing)
文摘
科技
2024-06-26 11:37
加拿大
GlocalFuse-Depth: 融合Transformer和CNN,实现全天候、自监督、单目深度估计
Fuse-Depth: Fusing transformers and CNNs for all-day self-supervised monocular depth estimation随着深度学习的发展,许多计算机视觉领域的问题可以更有效地被解决,例如深度估计。然而,当前大部分自监督深度估计方法只能处理白天图像,无法很好地推广到夜间图像。另外,夜间图像的照明条件不稳定而且能见度较低,其上的深度估计效果也不稳定。因此,急需一种泛化性好的神经网络结构来解决这个问题。鉴于此,来自香港大学的研究人员提出了一种基于Transformer和CNN融合的全天候自监督深度估计神经网络:GlocalFuse-Depth,其包含两个分支,分别处理包含相同深度信息的白天和夜晚图像。同时,Transformer和CNN 被用作两个分支的编码器以捕获局部和全局特征。而后,具有相同维度的特征被融合,用于预测深度。这种方法有效地缓解了夜间图像中照明条件不稳定的和低可见度的问题。该研究成果近期发表于期刊 《Neurocomputing》上。
技术实现上,将具有相同深度信息的白天与夜晚图像输入双分支神经网络中,以增强网络对深度信息的理解能力和泛化性。如图1(a)所示,在训练时,用提前训练的CycleGAN生成白天-夜晚图像对,输入神经网络进行视角重建的无监督训练。测试时,如图1(b),(c)所示,用CycleGAN生成的图像进行深度图的重建。
图1. GlocalFuse-Depth的训练和预测过程。用提前训练的CycleGAN生成的白天-夜晚图像对进行深度估计。
图2是GlocalFuse-Depth的特征融合模块,对来自两个分支且具有相同维度的特征进行融合,分别对它们采用空间注意力和通道选择。实验证明运用该融合方法,神经网络可以更有效地理解图像中和深度相关的信息。
图2. GlocalFuse-Depth的特征融合模块,主要包括空间注意力和通道选择两个部分。
图3 不同深度预测方法在夜晚图片(Oxford RobotCar 数据集)上的效果对比;GlocalFuse-Depth 对物体轮廓的重建更加精确。
技术小结:该研究提出GlocalFuse-Depth的双分支网络,结合了CNN和Transformer的特征融合,用于全天候自监督的单目深度估计。利用CNN对局部特征的和Transformer对全局特征的抓取能力,同时利用一种通过通道选择和空间注意力有选择性地融合了来自两个分支的多维特征。GlocalFuse-Depth在Oxford RobotCar数据集达到了不错的结果。
论文信息:Z. Zhang, R. K. Y. Chan, K. K. Y. Wong, GlocalFuse-Depth: Fusing Transformers and CNNs for all-day self-supervised monocular depth estimation, Neurocomputing 569 (2024) 127122.
https://doi.org/10.1016/j.neucom.2023.127122*该技术分享所涉及文字及图片源于发表论文和网络公开素材,不做任何商业用途。
INTELLIGENTOPTICSSHARING (I.O.S.) 运营以该领域的研究学者为主,非盈利非广告,希望能够结交共同兴趣方向的读者们,建立光学和计算机交叉学科领域内一个资讯分享交流的平台。如果喜欢,请点击“在看”和“点赞”,将有助于微信公众号平台对信息的定向统计和及时推送,小编团队在此不胜感激,谢谢!!