感知专题 | Transformer+CNN助力全天候、自监督、单目深度估计（Neurocomputing）

文摘科技 2024-06-26 11:37 加拿大

GlocalFuse-Depth: 融合Transformer和CNN，实现全天候、自监督、单目深度估计

Fuse-Depth: Fusing transformers and CNNs for all-day self-supervised monocular depth estimation

本期导读

随着深度学习的发展，许多计算机视觉领域的问题可以更有效地被解决，例如深度估计。然而，当前大部分自监督深度估计方法只能处理白天图像，无法很好地推广到夜间图像。另外，夜间图像的照明条件不稳定而且能见度较低，其上的深度估计效果也不稳定。因此，急需一种泛化性好的神经网络结构来解决这个问题。

鉴于此，来自香港大学的研究人员提出了一种基于Transformer和CNN融合的全天候自监督深度估计神经网络：GlocalFuse-Depth，其包含两个分支，分别处理包含相同深度信息的白天和夜晚图像。同时，Transformer和CNN 被用作两个分支的编码器以捕获局部和全局特征。而后，具有相同维度的特征被融合，用于预测深度。这种方法有效地缓解了夜间图像中照明条件不稳定的和低可见度的问题。该研究成果近期发表于期刊《Neurocomputing》上。

技术路线

技术实现上，将具有相同深度信息的白天与夜晚图像输入双分支神经网络中，以增强网络对深度信息的理解能力和泛化性。如图1（a）所示，在训练时，用提前训练的CycleGAN生成白天-夜晚图像对，输入神经网络进行视角重建的无监督训练。测试时，如图1（b）,（c）所示，用CycleGAN生成的图像进行深度图的重建。

图1. GlocalFuse-Depth的训练和预测过程。用提前训练的CycleGAN生成的白天-夜晚图像对进行深度估计。

图2是GlocalFuse-Depth的特征融合模块，对来自两个分支且具有相同维度的特征进行融合，分别对它们采用空间注意力和通道选择。实验证明运用该融合方法，神经网络可以更有效地理解图像中和深度相关的信息。

图2. GlocalFuse-Depth的特征融合模块，主要包括空间注意力和通道选择两个部分。

图3 不同深度预测方法在夜晚图片（Oxford RobotCar 数据集）上的效果对比；GlocalFuse-Depth 对物体轮廓的重建更加精确。

技术小结：该研究提出GlocalFuse-Depth的双分支网络，结合了CNN和Transformer的特征融合，用于全天候自监督的单目深度估计。利用CNN对局部特征的和Transformer对全局特征的抓取能力，同时利用一种通过通道选择和空间注意力有选择性地融合了来自两个分支的多维特征。GlocalFuse-Depth在Oxford RobotCar数据集达到了不错的结果。

论文信息：

Z. Zhang, R. K. Y. Chan, K. K. Y. Wong, GlocalFuse-Depth: Fusing Transformers and CNNs for all-day self-supervised monocular depth estimation, Neurocomputing 569 (2024) 127122.

技术详见：

https://doi.org/10.1016/j.neucom.2023.127122

*该技术分享所涉及文字及图片源于发表论文和网络公开素材,不做任何商业用途。

回顾与预告

上期回顾：计算专题 | 基于学习的扫描路径助力盲态全景视频质量评估（IEEE CVPR）‍欢迎点击查阅

下期预告：我们将不定期推荐学术领域具有代表性的计算显示和计算成像研究工作，同时穿插一些新型光学设计和VR/AR光机实现科普等的资讯分享，欢迎订阅关注，欢迎来稿交流。
Contact: intelligent.optics.sharing@gmail.com

INTELLIGENTOPTICSSHARING (I.O.S.) 运营以该领域的研究学者为主，非盈利非广告，希望能够结交共同兴趣方向的读者们，建立光学和计算机交叉学科领域内一个资讯分享交流的平台。如果喜欢，请点击“在看”和“点赞”，将有助于微信公众号平台对信息的定向统计和及时推送，小编团队在此不胜感激，谢谢！！

END

IntelligentOptics

从光学理论到算法提升，以计算能力延展光学设计，追踪计算光学、成像、显示、VRAR等前沿资讯，抛砖引玉，欢迎拍砖及来稿交流

计算专题 | 基于局部高斯体密度混合表达的非结构化光场渲染（ACM SIGGRAPH Asia）

显示专题 | 半监督训练，衍射模型驱动的神经网络助力全息显示（Optica OE）

成像专题 | CardiacField：基于二维超声探头的心脏三维重建与心功能自动评估（Digital Health）

显示专题 | 基于视觉曼巴的高质量计算全息（OLEN）

成像专题 | 复杂场景实时非视域成像（Nature Comp. Sci.）

成像专题 | 阵列孔径-色彩编码助力快照式高光谱成像 (ACM ToG)

显示专题 | 全局损失和随机同质化训练策略助力二值图像相位全息图生成（OLT）

计算专题 | 从静态到动态，基于神经辐射场的水下场景表征（CVPR）

学术交流 | 香港大学前沿技术交流 Geometry Computing & Visual Media (2024)

成像专题 | 旋转扫描光场显微实现各向同性的高速三维成像（Optica）

显示专题 | 利用凹凸贴图对面元全息图视点依赖性照明实现（OPTICA OL）

显示专题 | 基于混合损失函数梯度下降的压缩光场3D显示（Optica OE）

显示专题 | 分米级深度、偏振可调、彩色3D超表面全息术（Nature Communications）

计算专题 | 成像应用中电磁逆散射问题的隐式解法（ECCV）

前沿资讯 | 港大计算光学+图形学方向小AP求贤博士、博士后、访问学者(生) v202409

显示专题 | 融合色彩感知优化的高保真全息显示（PhotoniX）

成像专题 | 计算光谱成像：光场编码与算法解码（综述）

感知专题 | 基于多功能超表面的单次拍摄高动态范围成像与感知（Optica OE）

成像专题 | 计算心脏超声成像：心脏三维成像与心肌运动跟踪（IEEE TMI）

显示专题 | 全卷积神经网络助力多深度三维全息图生成（Advanced Science）

成像专题 | 分层可分离的视频Transformer助力单曝光压缩成像 (ECCV)

显示专题 | 基于瞳孔掩膜的全息近眼显示多视点优化（OLT）

显示专题 | 对JPEG压缩友好的全息图生成：端到端压缩感知计算全息 (Optica OE)

感知专题 | Transformer+CNN助力全天候、自监督、单目深度估计（Neurocomputing）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉