港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

文摘 2024-11-20 07:10 上海

作者 | 智驾机器人前线

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

导读

本文介绍了一种名为 DEIO（Deep Event Inertial Odometry）的新型单目深度事件惯性里程计框架。该方法创新性地将深度学习与传统非线性图优化相结合，通过可训练的事件束调整（e-DBA）与惯性测量单元（IMU）的预积分紧密耦合，实现6自由度位姿估计的高精度和鲁棒性。DEIO在多个公开数据集上的实验表明，其性能在低纹理、高动态范围和复杂场景中明显优于现有的基于图像或事件的主流方法，为事件相机在机器人导航和SLAM中的应用提供了新路径。

论文信息

标题：DEIO: Deep Event Inertial Odometry
作者：Weipeng Guan∗, Fuling Lin∗, Peiyu Chen, Peng Lu (*Equal contribution)
论文链接：https://arxiv.org/pdf/2411.03928
项目地址：https://github.com/arclab-hku/DEIO

动机(Motivation)

本文的动机源于现有视觉同时定位与建图（SLAM）系统在恶劣条件下（如运动模糊、低光照和高动态范围环境）可靠性和精确性不足的问题。传统基于图像的SLAM方法（如RGB或RGB-D相机）容易受到动态光照变化和运动模糊的影响，而事件相机凭借其高时间分辨率、高动态范围和无运动模糊的特性，在极端环境中展现出巨大的潜力。然而，事件相机产生的稀疏、非规则和异步数据，以及在某些场景（如平行边缘运动或静态场景）中的信息缺失，限制了其独立应用的鲁棒性。

为克服这些挑战，近年来研究者尝试将事件相机与其他传感器（如IMU、深度传感器等）融合，但现有方法仍存在硬件成本高、标定复杂性高等问题。此外，基于学习的事件SLAM方法尽管展现了出色的泛化能力，但仍在低纹理环境和尺度模糊问题上表现不佳。本文的动机是通过整合深度学习和传统优化方法，结合事件相机和IMU数据，开发出一种高鲁棒性、低漂移且适用于大规模、复杂场景的里程计框架。

创新点

系统pipeline
学习与传统优化的融合：
提出了第一个学习与传统非线性图优化紧密结合的单目事件惯性里程计（DEIO）框架。通过引入可训练的事件束调整（e-DBA）与IMU预积分的整合，显著提升了位姿估计的精度和鲁棒性。
可训练的事件束调整（e-DBA）：
设计了基于神经网络的事件束调整方法，通过事件流中连续帧的光流预测替代传统的手工设计特征（如事件角点跟踪）。这一创新实现了事件数据的高效表征和优化。
单目事件-惯性融合：
DEIO是第一个将基于学习的事件SLAM方法与IMU融合的单目里程计框架。尽管仅在合成数据上训练，其在多个真实世界数据集上的性能显著优于20多种主流方法。
滑窗图优化的应用：
引入基于关键帧的滑窗优化，将e-DBA生成的几何信息（包括Hessian矩阵和不确定性）与IMU数据在一个协同的因子图中进行优化，实现了高效的事件-惯性联合调整。
高泛化能力：
尽管在合成事件数据集上训练，DEIO展现了出色的真实世界场景泛化能力，且在结合真实数据微调后，性能进一步提升。
开放数据与代码：提供了代码和预处理的事件数据，促进了基于学习的事件位姿跟踪研究的发展。

本文核心算法

本文的核心算法是DEIO（Deep Event Inertial Odometry），一种将事件相机和IMU数据紧密结合的单目里程计系统，通过深度学习与传统优化的协同工作，实现高精度的位姿估计。算法核心分为以下几个部分：

1. 总体框架DEIO分为前端和后端：

前端通过深度学习预测事件数据的光流信息，提取稀疏的关键事件块。
后端利用图优化技术将事件数据的几何信息与IMU的运动约束结合，通过滑窗因子图优化关键帧的位姿和深度。

2. 事件光流预测

输入为事件数据流，将其划分为时间体素网格。
使用深度神经网络提取局部特征，捕获事件块之间的运动关系。
通过递归网络处理事件的不规则性，生成稀疏的光流和置信度信息，用于后续优化。

3. 可微事件束调整（e-DBA）

从事件光流中提取事件块，将其重新投影到不同帧中，计算投影误差。
使用深度学习生成的光流置信度，逐步优化事件块的深度和相机位姿。
优化过程中充分利用事件数据的稀疏性，通过高效计算提高速度和精度。

4. 事件与IMU的联合优化

构建一个滑窗因子图，其中包含事件和IMU的约束关系。
事件数据提供精确的几何约束，IMU数据提供运动连续性和尺度信息。
在因子图中综合优化事件光流、IMU测量和历史信息，更新关键帧的位姿和深度。
使用关键帧管理策略，仅保留最近和最相关的关键帧，以减少计算负担。

5. 滑窗管理和优化

滑窗机制确保系统只处理固定数量的关键帧。
新关键帧加入时，旧帧会被边缘化处理，其信息被整合到全局优化中。
滑窗内的优化迭代结合了事件数据和IMU数据，通过事件带来的几何精度和IMU带来的运动连续性，共同提升系统性能。

6. 系统工作流程

初始化：使用事件数据生成初始位姿，并结合IMU数据确定尺度和方向。
事件处理：提取稀疏事件块，预测光流和深度。
联合优化：整合事件与IMU信息，优化位姿和深度。
实时输出：滑窗优化后，输出最新关键帧的6自由度位姿。

实验仿真结果

更多对比实验结果，可以阅读原文。

总结

本文提出了一种名为DEIO的学习驱动的事件-惯性里程计（Deep Event Inertial Odometry），它通过在滑动窗口图优化中紧密集成深度事件束调整（e-DBA）和IMU信息，实现了高精度和高鲁棒性的位姿估计。实验表明，DEIO在九个具有挑战性的事件相机数据集上的表现明显优于基于图像和基于事件的主流方法。本文的研究表明，将学习与优化相结合的框架在SLAM（同时定位与建图）领域具有非常大的发展潜力。此外，通过提供公开的代码和预处理的事件数据，我们旨在推动基于学习的事件位姿跟踪的研究发展。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247516931&idx=2&sn=cda87041bf124ee9625553df6d7beb9f

3D视觉之心

3D视觉与SLAM、点云相关内容分享

最新文章

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

15 个改变世界的开源项目：塑造现代技术的先锋力量

多实例点云配准新SOTA！3DFMNet：简单而有效的3D聚焦与匹配网络(NeurIPS'24)

LidaRefer：户外3D视觉定位的创新框架

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

新国立联合微软共同打造：3D和4D场景均可生成的GenXD来了！

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

基于单目视觉惯性的同步定位与地图构建方法综述

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

不用encoder也能重建点云？PCP-MAE：基于中心预测的点云MAE自监督新框架（NeurIPS'24 Spotlight）

商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

slam相关开源数据集资源汇总（KITTI、CODD、MAOMaps）

3D激光雷达分辨率对基于图的SLAM方法究竟有何影响？

3DV 2024 | 基于超点图聚类的可扩展三维全视分割

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

2024年图像匹配挑战赛：银牌解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉