作者 | 3DCV 编辑 | 3DCV
点击下方卡片,关注“3D视觉之心”公众号
>>点击进入→3D视觉之心技术交流群
0. 论文信息
标题:InCrowd-VI: A Realistic Visual-Inertial Dataset for Evaluating SLAM in Indoor Pedestrian-Rich Spaces for Human Navigation
作者:Marziyeh Bamdad, Hans-Peter Hutter, Alireza Darvishy
机构:Zurich University of Applied Sciences、University of Zurich
原文链接:https://arxiv.org/abs/2411.14358
1. 导读
同步定位与地图创建(SLAM)技术可用于为视障人士导航,但缺乏真实数据集限制了针对拥挤空间的鲁棒SLAM解决方案的开发。为了解决这个问题,我们引入了InCrowd-VI,这是一种新的视觉惯性数据集,专门为室内行人丰富的环境中的人类导航而设计。使用Meta Aria项目眼镜录制,它在没有环境控制的情况下捕捉现实场景。InCrowd-VI具有58个序列,总轨迹长度为5公里,记录时间为1.5小时,包括RGB,立体图像和IMU测量。该数据集捕捉了重要的挑战,如行人遮挡、不同的人群密度、复杂的布局和照明变化。数据集中提供了精确到大约2厘米的地面实况轨迹,源自Meta Aria项目机器感知SLAM服务。此外,为每个序列提供场景的半密集3D点云。对InCrowd-VI上最先进的视觉里程计(VO)和SLAM算法的评估揭示了这些现实场景中的严重性能限制,证明了新数据集对推进复杂室内环境中视障导航SLAM研究的需求和价值。
2. 引言
在拥挤的室内公共空间中导航对视障(BVI)人士构成了重大挑战。支持此类导航的系统需要实时用户定位、详细的环境地图以及增强的空间感知能力。为了应对不熟悉的环境,并为视觉障碍者提供更安全、更独立的行动能力,必须采取稳健的解决方案。同时定位与地图构建(SLAM)为解决这些需求提供了具有前景的能力。
然而,为了使SLAM在视觉障碍者导航中切实可行,尤其是在拥挤的公共空间中,必须克服诸多障碍。这些环境的特点包括行人移动不可预测、照明条件多变以及存在反射和透明表面。此类动态且复杂的环境极大地增加了可靠导航的复杂性。推荐课程:彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战。
尽管现有的SLAM研究在机器人、自动驾驶和航空器等领域取得了显著进展,但这些方法并未充分解决视觉障碍者在行人密集的室内导航中面临的特定挑战。
缺乏专为拥挤环境中人类导航设计的真实数据集,一直是开发适用于视觉障碍者导航的稳健SLAM系统的主要障碍。当前的数据集通常侧重于基于车辆的场景或受控环境,缺乏该应用所需的场景多样性、动态复杂性和真实世界条件。
为了弥补这一空白,我们引入了InCrowd-VI1,一个专为拥挤室内环境中人类导航的SLAM研究设计的视觉惯性数据集。与现有数据集不同,InCrowd-VI捕捉了在各种室内公共场所(如机场、火车站、博物馆、大学实验室、购物中心和图书馆)录制的序列,这些场所展现了典型步行速度下真实的人类运动模式。所记录的序列涵盖了多种设置,包括不同的人群密度(从行人密集到静态环境)和复杂的建筑布局,如开阔空间、狭窄走廊、(移动式)坡道、楼梯和自动扶梯。它们呈现了真实世界室内空间的各种挑战,包括行人频繁遮挡、照明条件变化以及存在高反射表面等。该数据集是由佩戴Meta Aria Project眼镜的步行者在行人密集的环境中收集的,因此融入了真实的人类运动、行为和交互模式。
数据集的总轨迹长度为4998.17米,总录制时间为1小时26分37秒。该数据集提供了RGB图像、立体图像和IMU测量值。此外,还包括场景的半密集3D点云,供进一步分析。地面真实轨迹由Meta Aria项目机器感知SLAM服务提供,为评估SLAM算法的准确性提供了可靠的基准。
为了证明InCrowd-VI的价值,我们评估了几种最先进的经典和基于深度学习的视觉里程计(VO)和SLAM系统方法。分析结果显示,这些系统在拥挤场景、大规模环境和具有挑战性的光照条件下性能严重下降,突显了未来研究在开发更适用于视觉障碍者导航的稳健SLAM解决方案时面临的关键挑战和机遇。
3. 效果展示
视觉SLAM系统的评估需要能够捕捉现实世界环境复杂性和可变性的综合数据集。现有的SLAM基准数据集可根据其应用领域进行分类。根据应用领域,已提供了不同的感官数据和不同程度的地面真实准确性[8]。针对不同应用领域已提出了各种数据集,每个数据集都具有独特的传感器平台、设置和挑战。本节回顾了最先进的数据集,与新提出的InCrowd-VI数据集相比,强调了它们的特点和局限性。审查了来自机器人和自主系统以及专注于行人里程计的数据集,以评估它们在解决视觉障碍者导航挑战方面的适用性。表1概述了这些数据集,总结了它们的关键特征,并与InCrowd-VI进行了比较。
4. 主要贡献
本文的贡献如下:
• 介绍了InCrowd-VI,这是一个专为室内行人密集环境中人类导航设计的新型视觉惯性数据集,填补了现有研究资源中的关键空白。
• 提供了地面真实数据,包括每个序列的准确轨迹(约2厘米精度)和半密集3D点云,能够进行严格的SLAM算法评估。
• 使用InCrowd-VI评估了最先进的视觉里程计和SLAM算法,揭示了它们在真实拥挤场景中的局限性。
• 确定了为视觉障碍者在复杂室内环境中导航设计的SLAM系统需要改进的关键领域。
5. 数据集采集
我们介绍了InCrowd-VI数据集,该数据集专为评估人类在室内行人密集环境中的导航所使用的SLAM而开发。首先描述了用于数据收集的传感器框架,然后概述了创建数据集所采用的方法论。接着解释了获取和验证地面真实数据的过程。最后,详细说明了所捕捉的序列及其代表的各种挑战。
5.1 传感器框架
数据收集平台的选择基于要使用数据集评估的SLAM系统的预期应用。在视觉障碍者导航的背景下,可穿戴平台尤其合适,因为它们能够有效捕捉运动期间的人类运动模式。因此,我们采用了头戴式平台来收集数据。头戴式设备具有捕捉前方视野的优势,这对于导航至关重要,并且能够更准确地表示视觉障碍者如何扫描周围环境,包括自然的头部运动和关注区域。在本研究中,我们使用了Meta Aria眼镜作为传感器平台。
Meta Aria眼镜配有五个摄像头,包括两个视野广阔且重叠较少的单色场景摄像头、一个RGB摄像头和两个眼动追踪(ET)摄像头2。此外,眼镜还配备了多个非视觉传感器,包括两个惯性测量单元(IMU)、一个磁力计、一个气压计、一个GPS接收器以及Wi-Fi和蓝牙信标。眼镜还包括一个七通道空间麦克风阵列,采样率为48kHz,可配置为以双声道立体声模式运行。需要注意的是,InCrowd-VI数据集仅包含来自RGB和单色摄像头以及IMU测量的数据。其他传感器数据未包含在数据集中。Meta Aria眼镜的一个关键特性是支持多个录制配置文件,允许用户选择要录制的传感器并相应地配置其设置。这种灵活性使这些眼镜特别适合各种实验条件和需求。表2总结了Aria眼镜上五个摄像头的规格。
5.2 方法论
数据收集过程经过精心设计,以捕捉真实世界室内导航的各种挑战。数据集的强大之处在于其对这些挑战的全面展现,包括频繁的行人遮挡、不同的人群密度、复杂的建筑布局、开阔空间、狭窄走廊、(移动式)坡道、楼梯、自动扶梯、纹理贫乏的场景、照明变化以及高反射表面。这些环境从每帧包含20多名行人的稠密人口区域到空旷杂乱的空间不等,为评估SLAM系统提供了各种场景。在数据收集过程中,在有触觉铺路(BVI人士可通过脚和拐杖感知的纹理地面)的情况下遵循其指引,以模仿视觉障碍者的行走模式,并能够在以后对3D点云的准确性进行视觉检查,尤其是在交通繁忙的区域。数据收集工作获得了相关部门的必要许可,确保了遵循伦理考虑。
5.3 地面真实数据
使用Meta Aria机器感知SLAM服务[7]生成了地面真实轨迹和场景的3D重建。该服务提供由最先进的VIO和SLAM系统生成的设备轨迹,随后进行离线后处理和细化。它利用多个传感器来提高准确性和鲁棒性,并利用对Meta Aria设备传感器模型、定时和刚性的精确了解。这即使在快速运动、低光照或高度动态光照、摄像头部分或暂时遮挡以及各种静态和动态环境等具有挑战性的真实世界条件下也能实现稳健定位。
尽管Meta Aria机器感知SLAM服务实现了高精度,但这是在视觉障碍者实时导航不可行的条件下实现的:它离线运行并借助服务器端处理,利用完整的传感器套件,并进行大量后处理。相比之下,实用的视觉障碍者导航系统必须在资源受限的可穿戴设备上实时运行,提供即时可靠的反馈,并在没有后处理或云计算支持的情况下保持鲁棒性。
Meta SLAM服务生成的轨迹在房间规模场景中的全局均方根误差(RMSE)平移误差通常不超过1.5厘米。此外,Meta SLAM服务还提供了场景的半密集点云,即使在高度动态和具有挑战性的情况下也能准确重建环境的静态部分。
通过几种具有挑战性的场景中的手动测量进一步验证了地面真实数据的准确性,结果表明平均绝对误差约为2厘米,与Meta SLAM服务报告的准确性一致。为了验证地面真实数据,使用了一种利用SLAM系统核心原理的方法:3D地图和相机轨迹的联合优化[27]。这种方法涉及在真实世界环境和半密集地图中沿轨迹识别易于识别的地标。记录这些地标的3D坐标,并使用欧几里得距离公式计算它们之间的距离。然后将这些计算出的距离与在真实世界中进行的实际测量进行比较,从而直接评估地图的准确性和估计轨迹的可靠性。图1展示了手动测量过程的一个示例。
最初,我们在选定的拥挤序列上进行了手动测量,并评估了最先进的VO和SLAM系统之后,我们进行了额外的手动测量,特别是重点关注了指标所有系统均出现故障或性能不佳的序列。我们在每个序列中使用了多种物体,如地砖、门、广告牌和井盖,这些物体在轨迹的不同空间方向上分布,以确保验证的稳健性。图2展示了第二轮手动测量中真实世界距离与测量距离之间的关系。强线性相关性(由红色趋势线指示)以及点在这条线周围的紧密聚类表明,即使在当代SLAM系统难以应对的具有挑战性的场景中,Meta SLAM服务也保持了准确性。该图包含了从30厘米到超过250厘米的测量范围,表明无论测量距离如何,重建准确性都保持稳定,偏差通常在预期值的2厘米以内。
需要注意的是,手动测量过程本身会由于精确识别对应点的挑战而引入一定程度的误差。尽管如此,观察到的误差略高于已报告的典型误差,但仍处于合理范围内,这表明Meta SLAM服务在此特定场景中表现良好。除了定量指标外,还对估计的轨迹和地图进行了定性目视检查。这包括评估地标的一致性、轨迹的合理性以及场景中移动行人的去除情况。图3展示了Meta Aria机器感知SLAM服务处理动态对象的能力,通过展示一个场景:在自动扶梯上的行人最初相对于摄像机呈现静态,但随后变为动态。该图像展示了SLAM服务生成的精细3D重建结果,该结果成功识别并去除了最终点云中的动态行人,仅保留了环境的静态元素。动态对象去除过程通过确保移动和临时静止的对象不被纳入静态环境表示或真实值,从而提高了3D地图重建和轨迹估计的准确性。
5.4. 序列与捕获的挑战
InCrowd-VI中的每个数据集序列都包含分辨率为1408×1408、帧率为30帧每秒(FPS)的时间戳RGB图像,分辨率为640×480、帧率为30 FPS的立体图像对,两条数据速率分别为1000 Hz和800 Hz的IMU数据流,半密集点云,以及精确的轨迹真实值。虽然Meta Aria眼镜提供来自多个传感器的数据,但并非所有数据都包含在数据集中,因为它们对于该数据集的重点而言并非必需。图像数据及其相对3D场景地图的示例如图4所示。
为了促进对SLAM算法的全面评估,数据集序列被组织为表示不同水平的行人密度和环境复杂度。这种分类允许在不同水平的人类密度和环境复杂度下评估SLAM系统。表3概述了这些序列,展示了它们基于行人密度、场所多样性、序列长度、持续时间以及每个场景中遇到的具体挑战的分类。这种结构确保了数据集提供了多种场景,能够对SLAM算法在现实场景中的适应性和鲁棒性进行彻底评估。
此外,轨迹长度在评估视觉SLAM系统的性能和鲁棒性方面起着至关重要的作用。对于视觉障碍者的室内导航,我们将长度小于40米的序列视为短轨迹,40米至100米的序列视为中轨迹,100米及以上的序列视为长轨迹。图5显示了InCrowd-VI数据集的轨迹长度直方图。
重要的是要注意,我们数据集中的行走速度反映了视觉障碍者的典型导航模式。研究表明,与视力正常的人相比,视觉障碍者在独立行走和引导行走时往往走得更慢,步幅也更小[28]。虽然视力正常人群的典型行走速度通常在1.11至1.4米/秒之间[28],但InCrowd-VI数据集中的平均行走速度为0.75米/秒。这一较低的平均速度符合视觉障碍者导航的预期。
数据集捕获了现实世界中室内导航场景所固有的各种挑战,包括以下方面:
• 动态障碍物:InCrowd-VI包含有移动行人的序列,捕捉了与人群交叉路径和绕行不同方向移动个体的场景。这些序列测试了SLAM系统在现实环境中处理不可预测的动态元素的能力。
• 人群密度变化:序列捕捉了从静态到人口密集地区的各种人群密度,测试了SLAM系统对不同水平人类活动的适应性。
• 频繁遮挡:数据集包含因移动行人、行李和基础设施造成的频繁遮挡的序列,从而给保持精确映射和跟踪带来了重大挑战。
• 反光和透明表面:数据集包含玻璃和其他反光表面,这些表面可能会扭曲传感器读数并使视觉SLAM算法复杂化。
• 纹理贫乏区域:具有最少视觉特征(如平面墙)的场景对基于特征的SLAM系统构成挑战。
• 大规模和复杂环境:数据集涵盖了包括开放空间、走廊、斜坡、楼梯和自动扶梯在内的各种建筑布局,以测试SLAM对不同空间配置的适应性。
• 光照变化:序列包含了不同光照条件的序列,从光线充足的中庭到光线昏暗的走廊或闪烁灯光的区域,以测试SLAM在不同照明条件下的鲁棒性。
• 视角突变:序列捕捉了用户在转弯和楼层转换期间视角的变化,从而挑战了SLAM跟踪的一致性。
• 运动过渡:序列包括移动环境(自动扶梯、移动斜坡和火车)与静止区域之间的过渡,以测试SLAM区分自身运动与环境运动的能力。
这些挑战共同构成了InCrowd-VI数据集的真实感和复杂性,使其成为评估和推进设计用于现实世界中室内视觉障碍者导航的SLAM系统的宝贵资源。
6. 实验结果
7. 总结
本文介绍了InCrowd-VI,这是一个专为解决室内行人密集环境中SLAM(即时定位与地图构建)挑战而设计的新型视觉-惯性数据集,尤其针对视觉障碍者的导航需求。我们在InCrowd-VI数据集上对当前最先进的视觉里程计(VO)和SLAM算法进行了评估,结果显示,无论是经典方法还是深度学习方法,都存在显著的性能局限,这验证了该数据集有效捕捉到了具有挑战性的真实世界场景。这些系统在应对拥挤场景的复杂性、光照变化以及运动转换方面存在困难,凸显了当前技术能力与真实世界室内导航需求之间的差距。InCrowd-VI数据集对于推动复杂、拥挤室内环境中的SLAM研究具有重要意义,它提供了逼真的、以用户为中心的数据,这些数据紧密反映了视觉障碍者在此类环境中导航时所面临的挑战。未来的研究应聚焦于解决InCrowd-VI数据集所揭示的关键挑战。尽管InCrowd-VI是室内SLAM研究的重要资源,但我们也必须认识到其局限性。缺乏深度信息限制了其在测试基于深度的SLAM系统方面的适用性,且其专注于室内环境,也限制了其在室外和混合环境场景中的实用性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
扫码添加小助理进群
3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。