ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

创业 2024-09-13 08:22 北京

该工作提出了一种微调2D预训练模型策略，旨在优化2D预训练模型以适应3D点云分析任务。该方法通过少量参数微调，可大幅度提升模型在处理3D点云数据时的性能，所提出的微调方法能够有效地从点云数据中提取高质量的表征，这些表征随后可被用于执行多种下游点云处理任务。应用范围包括但不限于3D物体分类、部件分割、室内场景的语义分割以及室内实例分割等。该方法的设计有效利用了2D模型的预训练优势，克服了传统方法在3D点云分析中所需的大量参数调整，为3D点云处理领域提供了效率与性能的双重提升。

论文链接：
Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers
论文链接：
https://arxiv.org/abs/2407.13200
项目主页：
https://vcc.tech/research/2024/PointFormer

一、引言

本文提出了一种新的方法——Adapt PointFormer (APF)，旨在通过适应二维视觉模型以实现高效的三维点云分析。近年来，自注意力模型，例如BERT [1]和ViT [2]，在自然语言处理和图像识别等领域取得了突破性的进展。Transformer [3]架构也被成功引入到点云分析的多个研究中，并取展现出显著的性能提升。尽管如此，针对三维下游任务的大规模预训练模型仍然相对稀缺，这一现象的部分原因在于三维数据的标注难度远高于二维数据。APF方法的提出，旨在缓解这一瓶颈问题，通过利用二维模型的预训练成果，为三维点云分析提供一种新视角。

在二维图像领域，众多预训练模型，如ViT和CLIP [4]已经通过使用1400万张图像和4亿组图像-文本对进行训练，从而积累了丰富的先验知识。由此引发出一个问题：是否可以直接借鉴这些二维先验知识来提升三维点云的分析性能？如果可行，我们便能够直接利用易于获取的二维数据和预训练模型，来增强三维点云分析方法的能力。我们首先开展了一项实验，以探究将图像先验知识直接应用于点云数据分析的可行性。

为此，我们随机初始化了一个轻量级的PointNet (Random PointNet ，简称RPN)，用以实现点云数据与图像token的维度对齐，然后获得随机点特征。在训练期间，维度对齐网络参数固定不变。随后，我们对二维预训练模型进行了微调。实验结果表明，与从头开始在三维数据上训练的模型相比，微调的二维模型获得了更高的准确性，结果如图1所示。由此可见，二维预训练模型在分析三维点云任务上表现出有效性。

图1 从头训练模型与微调方法性能比较 (PointNet和Transformer为从头训练的模型，APF w. RPN为本文提出我们提出的采用随机轻量PointNet的APF架构)

基于以上观察，本文提出了Adapt PointFormer (APF)，通过微调二维预训练模型来处理点云数据，从而将二维图像的先验知识迁移并校准到三维点云分析中。为了更有效地利用二维自注意力机制，APF使维度对齐网络可训练，并引入了点嵌入序列化技术来模拟二维图像的有序token。此外，本文借鉴了AdaptFormer [5][6]的微调技术，以校准图像注意力先验，我们将该模块称为PointFormer。通过在多个常用三维数据集上进行实验，验证了APF在三维点云分析中的有效性。

二、技术贡献

本工作主要贡献如下：

本文研究了预训练图像模型在三维点云分析中的潜力，并揭示了通过最小化微调参数可直接利用二维先验知识，并且可以超越直接在三维数据上训练的模型；
本文提出了一种新颖的框架--APF，该框架通过微调二维预训练模型,使其直接应用于三维点云分析，为三维点云处理领域提供了新的研究视角和技术途径。

三、方法介绍

Adapt PointFormer方法主要由对齐图像和点云特征和微调图像模型两部分组成，第一部分先将点云嵌入成token块再利用Z-order曲线来对齐点云token块和二维图像先验知识，第二部分提出PointFromer的微调方法，利用小部分参数即可获得大幅的性能提升。

对于第一部分，首先利用Point Embedding将点云编码为无序的token块，再利用Z-order曲线对这些token块进行排序，从而将其转换成有序的序列。这一过程确保了点云数据在输入到预训练模型之前具有良好的结构性和顺序性。对于第二部分，我们将排序后的有序token块输入至二维预训练模型中，并通过提出的Point Former模块微调该二维模型。Point Former使得二维图像的先验知识能够有效地集成到以编码的三维token块中，从而提升了模型在处理三维数据时编码特征的能力。这些经过处理的token块被输送到下游任务的处理器中，可以完成各类三维点云分析任务，如分类、分割、提取等。

本研究中可训练的参数主要集中在两个关键模块：Point Embedding模块主要由轻量级的PointNet构成，实质上是一系列简单的多层感知器，其作用是将点云数据的维度转换至预训练的二维模型可以接收的格式。这一转换过程不仅保留了点云的几何特征，还确保了数据与二维模型的兼容性。Point Former模块则由降维矩阵、激活函数和升维矩阵组成，其结构如图2所示。这种结构能够减少需要训练的参数的数量，提高训练效率。该模块能够将二维先验校准到特定三维任务中，增强了特征的表示能力，使其更加多样化，有助于利用预训练模型中的二维先验，从而更好地捕捉点云数据中的复杂特征。APF整体框架如图3所示：

图2 Point Former结构图

图3 模型总体结构图

四、部分结果展示

我们首先展示莫顿曲线，通过莫顿算法，我们将无序的点云块转换为有序的点云块，我们将原本无序的点云块转换为了有序的点云块。这一步骤对于对齐点云和图像特征至关重要，这个操作确保了点云数据在空间上的连续性和顺序性，从而使得二维预训练模型能够更好地理解和处理这些数据，从而对齐点云和图像的特征。由图4可见，经过莫顿排序后，原本无序的点云块被重新排列，形成了一个（机头）到中（机身）到下（尾翼）的有序结构。

图4 一维点云块在实际在三维物体中的位置

我们利用t-SNE对模型提取的三维点云特征进行了可视化，结果如图5所示，为我们提供了对特征分布和模型性能的直观理解。可以观察到，即使在未经训练的RPN中，相同类别的点云特征能够较为紧密地聚集在一起，而不同类别的特征则能够清晰地分开。这一现象表明，仅根据二维先验，APF也能够有效地提取句具有区分度的特征。

图5 T-SNE可视化特征的分布

为了量化展示APF的有效性，我们展示了在三维点云分析领域常用的基准测试集上的实验结果。为了全面评估所提出方法的有效性和可扩展性，我们将该方法与传统的基于MLP方法和流行的基于Transformer的方法进行了比较。表1和表2分别展示了在物体分类任务上的实验结果，表3为部件分割任务上的结果：

表1 ModelNet40上的测试结果

表2 ScanobjectNN的测试结果

表3 ShapeNetPart部件分割的结果

为了深入分析APF方法中各个模块的贡献和有效性，我们进行了消融实验，其结果如表4所示：

表4 Adapt PointFormer各模块的作用

五、总结与展望

本文通过使用随机初始化的网络进行维度对齐，验证了二维图像先验知识在三维数据上的应用潜力。这一发现表明，预训练的二维模型有助于点云分析。基于这一发现，本文进一步提出了Adapt PointFormer (APF)框架，该框架通过微调预训练的二维视觉模型，使其能够适应并应用于下游的三维点云分析任务。APF框架主要由以下两部分构成：点云嵌入网络、点云块排序器。通过这种设计，APF能够在不将点云直接映射成图像的情况下，更有效地利用二维图像模型的先验知识。

尽管APF在多种三维点云分析任务中展现了其有效性，但相较于通过将三维模型映射为二维图像来利用二维预训练模型先验知识的方法，APF的性能的提升伴随着训练参数数量的增加。因此，未来的研究将聚焦于如何以更少的参数和更低的计算复杂度来校准二维预训练模型，以实现更加高效的三维点云分析。

六、思考与讨论

Q: 点云自身存在的位置信息是否会影响预训练ViT固有的位置信息？

A: 考虑到点云自身的位置信息和预训练ViT位置信息不对齐的情况下，本文应用了莫顿排序，将无序的点云块变成有序的点云块，以此对齐位置信息。

Q: 该方法和将点云映射成图片在利用2D模型的方法相比，即P2P，有什么不同？

A: 该方法直接的利用了2D的模型，我们的前序步骤是点云提取成token块，在提取成token块的过程中，我们利用了轻量的pointnet网络，该网络有可学习的参数，可学习到P2P丢失的三维几何信息，并且通过排序操作可充分利用2维预训练模型的先验语义信息，紧接着通过微调二维预训练模型来提高性能。

以下是开放性问题，欢迎读者朋友留言讨论：

Q: APF已经验证了在2D图像模型的有效性，该方法是否在处理自然语言的大模型上有同样的效果？

参考文献

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. Conference of the North American Chapter of the Association for Computational Linguistics (NAACL). 4171-4186, 2019.

[2] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly. An image is worth 16x16 words: Transformers for image recognition at scale. International Conference on Learning Representations (ICLR). 2021.

[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. Attention is all you need. Advances in Neural Information Processing Systems (NeurIPS). 5998-6008, 2017.

[4] Alec Radford, Jong Wook Kim, Christine Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark. Learning transferable visual models from natural language supervision. International Conference on Learning Representations (ICLR). 2021.

[5] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Sijia Wang, Lu Wang, Weizhu Chen. Lora: Low-rank adaptation of large language models. International Conference on Learning Representations (ICLR). 2022.

[6] Shoufa Chen, Chongjian Ge, Zhan Tong, Jianmin Wang, Yibing Song, Jian Yang Wang, Ping Luo. Adaptformer: Adapting vision transformers for scalable visual recognition. Advances in Neural Information Processing Systems (NeurIPS). 16664-16678, 2022.

作者：黎达
来源：公众号【深圳大学可视计算研究中心】

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513885&idx=2&sn=61542d495ff87e3110205dc0db7edbb6

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉