3D语义占用预测网络在重构3D场景的几何和语义结构方面表现出显著的能力,为机器人导航和自动驾驶系统提供了关键信息。然而,由于密集网络结构设计的开销,现有的网络在平衡准确性和延迟方面面临挑战。
在本文中,作者引入了OccRWKV,这是一种高效的语义占用网络,灵感来自Acceptance Weighted Key Value(RWKV)。OccRWKV将语义、占用预测和特征融合分离到不同的分支中,每个分支都包含Sem-RWKV和Geo-RWKV块。
这些块被设计为捕捉长程依赖性,使得网络能够学习特定领域的表示(即语义和几何),从而提高预测准确性。利用实际3D占用的稀疏性,作者通过将特征投影到鸟瞰视角(BEV)空间并提出一个BEV-RWKV块来有效提升和融合特征,从而减少了计算开销。
实验结果表明,OccRWKV在SemanticKITI数据集上优于最先进的方法,在mIoU达到25.1的同时比最佳 Baseline 快20倍,使其适合在机器人上实时部署以提高自主导航效率。
I Introduction
近年来,3D语义占用预测网络 由于其出色的重建3D场景的几何和语义结构的能力,受到了广泛关注,为机器人导航任务 [4, 5] 和自动驾驶系统 提供全面的占用图和语义信息,对于这些任务至关重要。
尽管现有的基于单一模态(如基于LiDAR的[4,8,9,10]和基于相机的)和多模态([7])网络在3D语义占用预测方面取得了显著进展,但大多数网络都采用了密集3D CNN[1]或transformer[12]架构,这些架构具有很高的计算复杂性和需要大量的GPU内存。这些需求限制了它们在资源受限的环境中的部署,如机器人系统和自动驾驶。
一些方法试图通过利用2D卷积[4, 8]来降低网络复杂性。虽然这种方法有助于减轻计算负担,但代价是它无法捕捉到对于精确语义分割和占用预测至关重要的长程依赖关系。这些方法在有效建模长程上下文信息方面的局限性,限制了它们在复杂和动态环境中的性能。
作者的关键见解在于重新思考并设计新的网络结构,使3D语义占用预测网络能够在准确性和延迟之间实现平衡。首先,作者认识到现实世界中的3D占用是稀疏的,大部分 Voxel 都是空的。这种稀疏性表明将密集特征融合迁移到鸟瞰空间(BEV)[9, 13, 14, 15]的潜在优势,这可以导致更高效的计算和减少内存需求。
其次,作者从最近提出的 Receptance Weighted Key Value (RWKV) 模型 [16, 17] 中得到启示,该模型利用线性张量积注意力机制。这种机制避免了二次复杂度,提高了计算效率,使得 RWKV 在处理长序列时可以保持较低的内存和计算开销。RWKV 模型已经在视觉任务中成功应用,例如在 Vision-RWKV (VRWKV) [18] 中,通过引入四方向位移(Q-Shift)并修改原始因果 RWKV 注意力机制为双向全局注意力机制进行适应。
这种适应不仅继承了 RWKV 在处理全局信息和稀疏输入时的效率,还模拟了视觉任务的局部概念,并减少了空间聚合复杂度。
受到这些观察的启发,作者提出了以下问题:
作者能否设计一个线性复杂度的 3D 语义占用网络,实现性能(即准确性)与效率(即更快推理速度和较低内存使用)之间的权衡?在建立这些洞察的基础上,作者引入了 OccRWKV,第一个基于 RWKV 的 3D 语义占用网络。
与以前同时学习语义和占用预测的网络不同,OccRWKV 将这些预测分为不同的分支。这种分离便于每个领域内进行专业化学习,从而提高预测准确性和充分利用语义和几何特征的互补性质在后续特征融合阶段。作者在这些分支中集成新型的 Sem-RWKV、Geo-RWKV 和 BEV-RWKV 块来捕捉对语义准确性和占用预测至关重要的长期依赖关系。此外,通过将特征投影到 BEV 空间,作者减少了特征融合延迟,从而在不牺牲性能的情况下实现实时推理。
作者首先在语义化KITTI标准上评估了OccRWKV,与一些领先的占位网络进行了比较,以评估其准确性和推理速度。接下来,作者在实际机器人上部署了OccRWKV,以测试其在导航任务中的效率。作者的评估结果如下:
OccRWKV 是高性能的。OccRWKV 在语义 KITTI 基准测试上实现了最先进的性能(mIoU = 25.1)(SS IV-B)。
OccRWKV的效率很高。 OccRWKV不仅比最佳 Baseline (即Co-Occ)快20倍,实现22.2 FPS的优越性能,同时将参数数量减少了78.5%。(SS IV-B)
OccRWKV即插即用。OccRWKV可作为遮挡感知网络在实际机器人上部署,以提高导航效率。(SS IV-C)
欢迎加入自动驾驶实战群
II Related Work
3D Semantic Occupancy Prediction
3D语义占用预测对于解释被遮挡的环境至关重要,因为它通过将几何与语义线索相结合,越过视觉遮挡识别出空间布局。该领域涵盖了多种方法,可以广泛地归类为基于_卷积神经网络(CNN)_和基于_Transformer_的方法。基于CNN的方法在从各种输入中推理占用方面表现出强大的能力。Co-Occ框架采用多模态策略,将LiDAR和相机数据融合,通过体积渲染正则化和几何和语义感知的融合模块,在公共基准测试中实现了显著的性能。LowRankOcc利用张量分解和低秩恢复来解决空间冗余,在多个数据集上实现了最先进的结果。其他一些值得注意的工作,如JS3C-Net [20]和SSC-RS [9],利用点云数据有效地管理了户外场景的复杂性。基于Transformer的方法利用注意力机制进行特征聚合,并显示出有前途的结果。TPVFormer引入了一种三视角方法,将BEV与两个附加平面相结合,仅使用相机输入实现LiDAR般的感知。
Receptance Weighted Key Value (RWKV) Models
接受加权关键值(RWKV)模型[16]为传统深度学习架构在序列处理任务中面临的挑战提供了一种创新的解决方案。由于梯度消失和并行化限制,RNNs[21]在处理长序列的训练上存在困难。Transformer[22]凭借其并行训练能力和对依赖关系的高级处理能力,彻底改变了这一领域,但其成功是以高计算和内存需求为代价的,特别是对于更长序列。
RWKV通过将Transformer的并行训练能力和RNNs的线性计算效率相结合,解决了这些挑战。它采用了一种重新设计的线性注意力机制,避免了传统Transformer的昂贵点积交互,实现了高效的通道注意力,并支持可扩展的模型性能。
这种创新方法使RWKV在保持Transformer的表达能力的同时,提供了一种更资源高效的架构,使其适用于处理更长序列,而无需受二次缩放限制。
RWKV-Based Approaches in Visual Perception Tasks
OCRWKV模型,最初在自然语言处理(NLP)领域具有影响力,已成功应用于视觉感知任务[23],突显了其灵活性。视觉OCRWKV[18]针对高分辨率图像处理进行了简化,而PointRWKV[24]将RWKV应用于点云编码,采用分层结构实现多尺度特征捕捉。Diffusion-RWKV[25]将RWKV扩展到图像生成,高效处理大规模数据,实现高质结果且计算成本较低。在本论文中,作者提出了OccRWKV,这是第一个利用RWKV架构的3D语义占用网络,实现实时语义占用预测,并展示RWKV在3D空间分析中的新应用。
III Method
在本节中,如图2所示,作者将作者提出的OccRWKV架构划分为三个基本组成部分:语义分割分支(SS III-A),占用预测分支(SS III-B)和BEV特征融合分支(SS III-C)。在本节(SS III-D)的结尾,作者将详细介绍训练损失函数。
Semantic Segmentation Branch
Voxel 化层 在本文中,待预测的三维周围场景被划分为 Voxel 。语义分支包括一个 Voxel 化层和三个编码器Semi-RWKV块,具有相同的结构。
Voxel 化层将输入点云(覆盖范围为)转换为稀疏 Voxel 特征(密集空间分辨率)。点云中的每个点使用以下方程[9]离散化为 Voxel 索引:
其中表示 Voxel 分辨率,表示地板函数。考虑到多个点可能占据一个 Voxel ,由索引的 Voxel 特征使用如下方法进行聚合:
在这里, 表示聚合函数(例如,最大函数),而 表示用于降维的 MLPs。作者通过将点坐标、点所在 Voxel 中心到点的位置的距离偏移以及反射强度连接在一起来构建点特征 。
Sem-RWKV块: 在获取 Voxel 特征后,作者将其输入到三个Sem-RWKV编码块(见图3)中,以获得密集的语义-BEV特征。
每个Sem-RWKV块包括以下几个关键组件:残差块、稀疏全局特征增强(SGFE)模块[9, 26]用于丰富 Voxel 特征的几何上下文,BEV投影模块,以及用于特征增强的VRWKV模块[18]。
SGFE模块采用多尺度稀疏投影和注意到的尺度选择,在 Voxel Level 增加几何细节,同时将密集特征的分辨率减半,这是语义特征提取的关键一步。具有相同BEV索引的特征通过最大池化进行聚合,得到一组稀疏BEV特征。这些稀疏特征随后使用Spconv的密集化函数进行稠密化,生成密集的语义-BEV特征。
接下来,作者将处理密集的语义-BEV特征,这些特征由Vision-RWKV(VRWKV)模块[18]处理,该模块包括两个关键组件:空间混合模块和通道混合模块。在空间混合模块中,输入特征经过一个被称为-的位移操作,并通过并行线性变换映射到矩阵:
全局注意力输出 是由 [18] 中的线性复杂度双向注意力机制 - 计算得出的,该机制应用于 和 :
t-th特征 Token 的注意力计算结果由以下公式给出:
输出的计算方法为:首先对和进行逐元素乘法,然后进行线性投影和层归一化。
输出 是由 与 的逐元素乘积得到,然后进行线性投影。
经过空间混合和通道混合模块处理后的特征被结合,生成增强的 Semantic-BEV特征,捕捉后续特征融合的局部和全局表示。
Occupancy Prediction Branch
地理RWKV块: 占用预测分支(图3)从使用7x7x7核的输入层开始,包含三个地理RWKV块作为编码器。每个地理RWKV块保持一致的架构,集成了一个残差块、一个VRWKV模块和一个BEV投影模块。每个VRWKV模块包括一个空间混合模块和一个通道混合模块,遵循Sem-RWKV块描述中的规定和操作。
BEV Feature Fusion Branch
BEV特征融合分支采用类似于U-Net的结构,包括2D卷积和BEV-RWKV块。具体而言,编码器(图4)包括一个初始输入层和四个下采样阶段,每个下采样阶段都与一个BEV-RWKV块相配。首先,将_Semantic-BEV特征_和_Geometric-BEV特征_的拼接输入到输入层,然后输入到第一个BEV-RWKV块。在下一个BEV-RWKV块之前,来自[9]的ARF模块将前一阶段的输出、语义-bev和几何-bev表示作为相同尺度的输入和输出,并输出包含有意义语义上下文和几何结构的融合特征。解码器使用上采样和 Shortcut 来恢复空间细节,最终输出一个3D语义占用网格,其中表示类别数量。
Loss Function
作者的损失函数融合了三个关键要素。具体而言,语义损失组成部分在每个语义分支内的每个阶段聚合了Lovasz损失[29]和交叉熵损失[30]。对于占用分支,训练损失通过将每个阶段的二进制交叉熵损失和Lovasz损失相加而计算。BEV损失,,定义为交叉熵损失和Lovasz损失的三倍总和。作者采用端到端的方式训练整个网络。整体目标函数为:
IV Experiments
Experimental Setups
数据集和评估指标: 在SemanticKITTI数据集[31]上训练OccRWKV模型进行语义占位预测,使用点云数据作为真实值,表示为[256, 256, 32]个 Voxel 网格。作者使用平均交点与 Union(mIoU)进行语义准确性评估,使用帧每秒(FPS)评估在资源受限的机器人上部署的可行性。该模型还在一个空地机器人上进行了零样本推理测试,展示了其在无需先进行特定环境特定训练的情况下提高导航效率的潜力。
实现细节:OccRWKV在80个周期内,批处理大小为4,初始学习率为0.001的Adam优化器下进行训练。训练过程中,模型通过随机翻转(x-y轴)进行增强。训练完成后,模型使用TensorRT进行优化,并在Jetson Xavier NX上部署,以实时实现机器人在导航系统中的遮挡感知。通过在两个不同场景下进行10次试验,评估了模型对导航效率的影响。关于部署的详细信息,请参阅[4]中的方法。
OccRWKV Comparison against the state-of-the-art.
定量结果: OccRWKV 在SemanticKITTI隐式测试数据集(表1)上创造了新的基准,其mIoU达到了25.1%,比领先的基于相机的算法LowRankOcc [19]高出84.6%,比最先进的激光雷达技术SSC-RS [9]高出3.7%。在处理效率方面,OccRWKV实现了惊人的22.2 FPS,比Co-Occ [7]快22倍以上。
这种效率,结合优越的准确性,强调了OccRWKV相对于融合方法的优势,突显了激光雷达在机器人实时导航任务中的中心地位的优势。
作者还使用已经确立的CNN基础和Transformer基础方法进行了比较评估。表2中呈现的结果表明,OccRWKV在SemanticKITTI验证集上取得了优越的性能,IoU为58.8,mIoU为25.0,超过了这些类别中最具影响力的研究的基准数据。
同时,OccRWKV以37.9 MB的参数大小脱颖而出,比最先进的SparseOcc [2]小81.36%,使其在部署方面具有显著更高的效率。关于计算资源,它只需要7.1 GB的GPU内存,进一步强调了其对于实际应用的实用性。
定性结果:图5展示了OccRWKV在SemanticKITTI验证集内的各种复杂环境中的3D语义占用预测。值得注意的是,OccRWKV更有效地重构了广阔平坦的道路表面,并准确捕获了复杂的特征,如远处的植被和移动的车辆。OccRWKV的成功可以归因于基于RWKV的创新三分支网络架构,该架构可以有效地生成精确的场景级表示。
这种能力对于机器人导航任务非常有利,可以主动识别 Mask 区域的障碍布局,并制定全面的局部地图。
消融研究:在SemanticKITTI数据集(表3)上的消融研究揭示了作者的网络中Sem-RWKV,Geo-RWKV和BEV-RWKV模块的关键作用。
Sem-RWKV的删除显著降低了mIoU的6.4%,证实了在详细语义分割中的重要性。如图6所示,将Sem-RWKV与Geo-RWKV结合可以提高场景预测的准确性,捕捉到长程依赖性。BEV-RWKV对指标的影响较小,主要在特征融合过程中降低计算负载。
Impact of OccRWKV on real-world navigation performance.
作者将之前在SemanticKITTI数据集上训练的OccRWKV模型集成到空中地面机器人的导航系统中,作为其感知网络(即替换AGRNav[4]中的SCONet)。遵循[4]中提出的目标,该模型预先预测 Mask 区域的障碍物分布,以生成完整的局部地图,从而加快机器人的遍历速度。
在2种 Mask 环境(表4)的实验中,没有感知网络的平均移动时间是23.92秒。将[4]中的感知网络纳入后,该时间减少到16.54秒。OccRWKV的应用进一步提高了结果,将移动时间减少到13.79秒,并降低了能耗。这种效率提升归因于OccRWKV生成的详细局部地图,从而限制了飞行路径。此外,如图7所示,OccRWKV展示了强大的零样本3D语义占用预测,从稀疏点云中产生密集预测,并精确识别出语义元素,如植被和道路。
V Conclusions
总之,OccRWKV,这一作者提出的新网络,成功地解决了在3D语义占用预测中平衡性能和效率的挑战。
它在SemanticKITTI基准测试中实现了最先进的准确性,mIoU达到了25.1,并保持了高效的实时性能,达到22.2 FPS。
网络的可扩展性使其成为机器人导航和自动驾驶实际应用的强大解决方案。
实地部署确认了OccRWKV在现实世界环境中的有效性,验证了其适用于未来在复杂环境中的集成。
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。