论文一起读 | 面向点云流时空建模的4维Transformer点云网络

科技   2024-12-08 17:49   北京  
导读

本文是VCC陈昊轩同学对论文 Point 4D Transformer Networks for Spatio-Temporal Modeling in Point Cloud Videos 的解读,该工作来自新加坡国立大学和悉尼科技大学并已被发表于CVPR 2021上。


项目主页: 
CVPR 2021 Open Access Repository (阅读原文跳转)

该工作提出了一种新型的Point 4D Transformer (P4Transformer) 网络,用于对点云视频中的时空信息进行建模在该网络结构中,4维点卷积层负责嵌入时空局部结构,而Transformer层则利用自注意力机制捕获全局的外观和运动信息。该网络在3D动作识别和4D语义分割等任务上表现出色,证明了其在点云视频建模方面的有效性。

注:本文图片均来自原论文与其项目主页。



I


 引言 

点云视频(实时点云流)的分析是一个挑战性的任务,该任务要求算法能够处理和理解空间和时间维度上的数据。点云视频由一系列包含空间位置信息的点云帧组成,这些帧不仅记录了场景的空间结构,还记录了随时间变化的动态信息。这种数据形式在自动驾驶、机器人交互、虚拟现实等多个领域都有重要应用。然而,如何有效地从这些复杂的数据中提取有用的时空特征,对于提高动作识别、语义分割等任务的性能至关重要。传统的处理方法,如基于网格或体素的方法,虽然在某些情况下有效,但这些方法在处理大规模点云数据时通常效率低下,并且难以捕捉长距离的时空关系。近年来,深度学习的方法,尤其是基于自注意力机制的变换器 (Transformer) 架构,因其在处理序列数据中的长距离依赖方面的优势,适用于时空点云数据处理。


本次导读介绍Point 4D Transformer (P4Transformer),P4Transformer通过自注意力机制有效地捕捉点云数据中的时空依赖。具体来说,P4Transformer包括一个4维点卷积层,用于嵌入点云视频中呈现的时空局部结构,以及一个Transformer层,通过对嵌入的局部特征执行自注意力来捕获整个视频的外观和运动信息。以注意力权重的方式,将相关或相似的局部区域融合合并,而不是通过显式跟踪合并。


II


 技术贡献 

本工作主要贡献如下:

  • 受原有的3维点卷积层启发,提出了4维点卷积层

  • 提出了一种基于Transformer的神经网络架构,捕捉点云视频中的时空连续性


III


 方法介绍 

Point 4D Transformer网络由4维点卷积和Transformer两个主要结构组成,4维点卷积对点云视频中的局部时空结构进行编码,而Transformer用于捕获整个点云视频的整体运动信息。


4维点卷积运算
4维点卷积层旨在处理点云序列中的不规则和无序的3维坐标集,并将点云序列转换为更紧凑的表示形式。传统基于网格的卷积[1-5]方法关键在于,学习从中心网格到相邻网格的所有位移的卷积核。不同于传统的卷积层,点云视频的点坐标是无组织且不规则的,并且潜在位移的数量是无限的,因此4维点卷积层通过函数间接生成卷积核。

具体来说,首先以特定步长选取特定帧上的最远点采样点,并将采样点转换到相邻帧上。之后,以转换点为圆心,特定长度为半径,选取一个局部区域,依据以下公式就可以计算出4维卷积核。以上操作,可以认为是由相对位置坐标生成卷积核,因此将其称为4维卷积:
  
其中:

  

Transformer网络结构
这一部分基本使用了传统的Transformer层(如图1所示)。类似于Transformer中的位置编码,由于相似的局部区域具有相似的表示,点的位置也反映了局部区域之间的关系,因此在Transformer层中,锚点坐标和局部特征将作为自注意力输入。

与传统Transformer层相同,通过自注意力[6]输入I得到queries   keys  和   V:
 

其中  表示采样点的时空局部特征之间的相关性。  为Transformer层的新特征输出。P4Transformer在这部分还使用了多头注意力[6]以增强学习能力。 

图1 通过P4Transformer演示点云视频建模,其中颜色表示深度


IV


 部分结果展示 
P4Transformer在3D动作识别,以及4D语义分割两个主要任务上进行了测试。

3D动作识别
动作识别是视频建模的基础任务,可以看作是视频级别的分类任务。P4Transformer在MSR-Action3D[7]和NTU RGB+D[8-9]两个数据集上进行了测试。

表1 MSR-Action3D[7]的动作识别精度

表2 在NTU RGB+D 60[8]和NTU RGB+D 120[9]上动作识别准确率,右图为变压器注意力的可视化

4D语义分割
4D语义分割可以是一个点级的分类任务,虽然在单帧中也能进行语义分割,但点云视频提供的时间相关性有助于理解场景的结构。P4Transformer在Synthia4D数据集[10]上进行了测试。
表3 在Synthia 4D数据集[10]上的4D语义分割结果 (mIoU %)

图2 四维语义分割可视化
上图:输入,中间,真实值;下图:P4Transformer预测

V


 总结与展望 
本文提出了一种创新的P4Transformer网络架构,旨在对点云视频中的时空信息进行建模。P4Transformer网络通过4维点卷积和Transformer层,有效地捕捉点云视频中的动态变化和时空相关性。该网络避免了传统方法中依赖点跟踪的局限性,提高了对点云视频的理解和分析能力。

虽然P4Transformer在计算效率上已经表现出色,但在实时应用中,如自动驾驶或具身智能领域,对计算速度的要求更为苛刻。因此,研究如何进一步优化网络以满足实时处理的需求是一个重要的研究方向;当前的研究主要集中在相对简单固定的场景和动作上,未来可以探索更加泛化的模型,以满足多变的现实场景需要。

VI


 思考与讨论 
Q: 4维点卷积与传统的3维卷积有何不同?
A: 4维点卷积与传统的3维卷积的主要区别在于处理数据的类型和方法。传统的3维卷积通常用于处理规则网格数据,如体积数据或3维图像,传统3维卷积依赖于固定的网格结构来定义局部邻域。而4维点卷积,专门设计用于时空点云数据,这类数据带时间信息的数据更加复杂,且无规律。4维点卷积不需要将点云转换为规则体素,而是直接在原始点上操作,通过合并空间和时间维度上的局部点,来减少后续算法复杂性。此外,4维点卷积通过一个参数化函数来间接地、隐式地生成核,而不是直接几何显式地来进行核运算学习,这也使得4维点卷积完全能够适应点云数据的连续和不规则特性。


Q: 在Transformer层中,对整个视频执行softmax函数和对每一帧单独执行softmax函数相比有何不同?
A: 在原文中对整个视频执行softmax函数的方式称为视频级自关注,对每一帧单独执行softmax函数的方式称为帧级自关注。将softmax单独应用于每帧的同时也就认为每帧中各个点的权重之和为1。这也就假设了每个查询点出现在所有帧当中,显然这样的假设是不合理的,因此视频级自关注在事实上也获得了更好的性能。 

以下是开放性问题,欢迎读者朋友留言讨论: 

Q: P4Transformer目前对于每一个场景都需要训练一个网络,如何改进P4Transformer使其能够更加泛化,减少网络对于特定数据的依赖?


-- End--


导 读 | 陈昊轩
审 核 | 黄鹏頔
编 辑 | 申金、余鑫泉

参考文献

[1] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. Imagenet classification with deep convolutional neural networks. Conference and Workshop on Neural Information Processing Systems (NeurIPS). 1097-1105, 2012.

[2] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. Conference on Computer Vision and Pattern Recognition (CVPR). 770-778, 2016.

[3] Du Tran, Lubomir D. Bourdev, Rob Fergus, Lorenzo Torre sani, and Manohar Paluri. Learning spatiotemporal features with 3D convolutional networks. International Conference on Computer Vision (ICCV). 4489-4497, 2015.

[4] João Carreira and Andrew Zisserman. Quo vadis, action recognition? A new model and the kinetics dataset. Conference on Computer Vision and Pattern Recognition (CVPR). 6299-6308, 2017.

[5] Kensho Hara, Hirokatsu Kataoka, and Yutaka Satoh. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet? Conference on Computer Vision and Pattern Recognition (CVPR). 6546-6555, 2018.

[6] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszko reit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. Conference and Workshop on Neural Information Processing Systems (NeurIPS). 6000-6010, 2017.

[7] Wanqing Li, Zhengyou Zhang, and Zicheng Liu. Action recognition based on a bag of 3d points. Conference on Computer Vision and Pattern Recognition (CVPR). 9-14, 2010.

[8] Amir Shahroudy, Jun Liu, Tian-Tsong Ng, and Gang Wang. NTU RGB+D: A large scale dataset for 3D human activity analysis. Conference on Computer Vision and Pattern Recognition (CVPR). 1010-1019, 2016. 

[9] Jun Liu, Amir Shahroudy, Mauricio Perez, Gang Wang, Ling-Yu Duan, and Alex C. Kot. NTU RGB+D 120: A largescale benchmark for 3D human activity understanding. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). 42(10), 2684-2701, 2020.

[10] Christopher B. Choy, JunYoung Gwak, and Silvio Savarese. 4D spatio-temporal convnets: Minkowski convolutional neural networks. Conference on Computer Vision and Pattern Recognition (CVPR). 3075-3084, 2019.


arXiv每日学术速递
工作日更新学术速递!官网www.arxivdaily.com。
 最新文章