论文一起读 | 面向具身交互的通用3D物体理解

文摘   科技   2024-09-26 11:00   广东  

导读

本文是VCC许琪乐同学对论文 ShapeLLM: Universal 3D Object Understanding for Embodied Interaction 的解读,该工作由西安交通大学、交叉信息核心技术研究院(西安)、北京大学、旷视科技、清华大学交叉信息研究院、上海人工智能实验室和上海期智研究院合作完成,已被发表在计算机视觉顶会ECCV 2024上。

项目主页: 
https://qizekun.github.io/shapellm/


该工作提出了一个为具身交互量身定做的多模态大模型,可以支持单视角彩色点云输入,并在3D几何理解和具身视觉定位等多个方面超越了现有工作。

注:本文图片与视频均来自原论文与其项目主页。



I


 引言 
3D形状理解作为智能系统的核心能力,无论是在数字世界还是物理世界,都在图形学、计算机视觉、增强现实和具身机器人技术方面取得了显著进展。然而,想要在现实世界中有效应用这些技术,还需要满足以下几个关键要求:(i)必须捕捉足够的3D几何信息,以实现准确的空间和结构处理。(ii)为便于理解物体的功能性,模型应具备与物体进行具身交互的基础知识——通常是通过物理交互。(iii)需要一个通用接口来桥接信息编码和信息解码,从而帮助高阶指令转换为智能体的反馈,如对话响应和具身反馈。近期,大型语言模型(LLMs)在各种任务中展示了其庞大的先验知识量和强大的统一推理能力。这使得语言可以作为一种通用接口,利用LLMs中蕴含的大量常识,提升对3D形状的理解。

为了桥接语言模型和交互导向的3D形状理解,该工作提出了一个专为具身交互设计的多模态大模型ShapeLLM,该模型的设计基于以下三个设计策略:(i)3D点云作为输入。与2D图像相比,3D点云能够更准确地呈现物理环境,包含稀疏但高度精确的几何数据。(ii)多视角选择性蒸馏。现有的3D跨模态表征学习方法主要依赖单视角2D基础模型提取的高分辨率物体特征,导致3D形状理解的单一性。然而,与物体交互通常需要复杂的3D理解,这涉及不同层次和细粒度的知识,因此需要引入多视角图片蒸馏。(iii)3D视觉指令微调。指令微调已被证明能有效提升LLMs的对齐能力。

II


 技术贡献 

本工作主要贡献如下:

  • 提出了首个为具身交互设计的3D多模态大型语言模型

  • 提出了3D 问答基准测试集3D MM-Vet,涵盖多种测试场景,如单视角和噪声抖动;

  • 针对点云编码问题,提出了ReCon++点云编码器架构,在多个表征学习任务中超越现有工作。


III


 方法介绍 

图1 模型整体架构图


总体架构

ShapeLLM的主要目标是通过使用大型语言模型(LLM)作为通用接口,实现交互式的3D理解,其架构主要包括一个用于3D表征学习的预训练3D编码器和一个用于3D理解的LLM。ShapeLLM使用了一个名为ReCon++的全新模型作为3D编码器,基于现有的ReCon模型[1]进行了多项改进,以满足3D理解对精确空间和多视角细节的需求,同时采用了LLaMA模型作为LLM组件。ReCon++获取的3D物体表征通过线性投影处理后输入到LLM中,以确保与LLM的兼容性。为提升在6-DoF姿态估计等任务中的低层次几何理解能力,该方法还通过线性投影3D坐标引入了绝对位置编码(APE)。


缓解交互式3D理解的数据匮乏问题
现有的大部分3D数据通常以3D物体-指令对的形式呈现,缺乏互动性。虽然一些研究[2]尝试构建互动式3D理解数据集,但这些问答对通常基于标注的描述,缺乏细节,且主要集中于语义理解,未考虑具身交互。为了解决这些不足,该工作使用Objaverse-LVIS[3]和GAPartNet[4]作为数据源,基于3D物体的多视角图像,使用GPT-4V(ision)构建了问答对。为了确保数据多样性,该工作在数据收集和构建过程中引入了6个不同的提示维度,分别涵盖通用语义理解和具身物体理解。

ReCon++: 提升3D表征学习的能力

与物体交互(如抓取)需要准确感知多层次和多粒度的3D形状信息,这对3D表征提出了更高要求,需具备对3D几何的全面理解。ReCon++通过多视角图像查询,协同理解3D物体在不同视角下的语义信息,包括RGB图像和深度图。对于每个视角的图像和查询,通过余弦相似度作为匹配代价,寻找个元素的最优排列,从而优化多视角图像与查询之间的匹配: 
其中,  表示第个视角图像特征与匹配查询  之间的配对匹配代价。

图2 基准测试集数据样本


3D MM-Vet:多层次3D理解基准测试集
为了系统性地评估模型在处理交互式对象时的信息理解和语言生成能力,该工作建立了一个包含四个层级任务的多层次基准测试集,包括:通用识别、知识与语言生成、空间意识和具身交互。这一基准从Turbosquid精选了59个3D模型,并生成了232个用于评估的问答对,可以全面评估模型在各种任务场景中的表现。
 

IV


 部分结果展示 

微调3D物体识别

在对ScanObjectNN[5]和ModelNet[6]两个具有挑战性的3D物体数据集进行微调后,ReCon++展现了卓越的表示迁移学习能力。通过自监督预训练并采用中间微调策略,ReCon++在ScanObjectNN的PB_T50_RS基准测试中实现了95.25%的准确率,比Transformer基线提升了16.14%,在多个基准上均超越现有工作。

表1 微调3D物体识别性能评估

图3展示了ShapeLLM-13B在处理单视角点云输入时的表现,展现出对遮挡情况的出色鲁棒性。这一特性对于实际应用至关重要,因为单视角点云可以轻松通过RGB-D摄像头获取。

图3 以单视角被遮挡点云为输入的3D多模态对话示例


V


 总结与展望 
ShapeLLM是首个专为具身交互设计的3D多模态大语言模型,在通用识别与交互理解上体现了卓越的能力。该模型引入了ReCon++作为 3D 点云编码器,通过多视角蒸馏和先进的3D表示学习技术,显著提升了3D形状理解的效果。借助精心构建的指令遵循数据集,ShapeLLM在广泛的3D视觉指令微调任务中表现出色,尤其在具身交互理解方面取得了显著进展。

未来可以关注如何进一步提升模型的交互理解能力,并推动3D多模态大语言模型在更多实际应用场景中的部署。

VI


 思考与讨论 
Q: ShapeLLM是否能够在物理世界中实际应用? 
A: 可以。下表将ShapeLLM与仅基于图像的方法进行了对比,特别是在GAPartNet上的3D表达定位(Referring Expression Grounding,REG)任务中。结果显示,基于图像的方法无法进行零样本的6-DoF姿态估计,而ShapeLLM即使在没有几何微调的情况下,其表现也显著更好。这证明了几何信息在解决2D到6-DoF姿态估计问题中的必要性,以及使用3D点云作为输入的重要性。

表2 3D表达定位任务性能评估

Q: ShapeLLM能否泛化到未见过的物体上?
A: 可以。下图展示了ShapeLLM在未见过物体上的部件理解示例。尽管ShapeLLM的6-DoF姿态估计和空间意识主要在GAPartNet上进行训练,其仍在开放世界物体上的空间理解展示了出色的泛化能力。

图4 未见过物体的部位理解示例

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: ShapeLLM在处理动态场景中的实时空间理解方面会面临哪些挑战?如何应对这些挑战?

-- End--



导 读 | 许琪乐
审 核 | 黄惠
编 辑 | 申金、余鑫泉


参考文献

[1] Zekun Qi, Runpei Dong, Guofan Fan, Zheng Ge, Xiangyu Zhang, Kaisheng Ma, Li Yi. Contrast with reconstruct: Contrastive 3D representation learning guided by generative pretraining. International Conference on Machine Learning (PMLR). 28223-28243, 2023.

[2] Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, Chuang Gan. 3D-LLM: Injecting the 3D world into large language models. Advances in Neural Information Processing Systems (NeurIPS). 20482-20494, 2023.

[3] Matt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs, Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, Ali Farhadi. Objaverse: A universe of annotated 3D objects. Conference on Computer Vision and Pattern Recognition (CVPR). 13142-13153, 2023.

[4] Haoran Geng, Helin Xu, Chengyang Zhao, Chao Xu, Li Yi, Siyuan Huang, He Wang. GAPartNet: Cross-category domain-generalizable object perception and manipulation via generalizable and actionable parts. Conference on Computer Vision and Pattern Recognition (CVPR). 7081-7091, 2023.

[5] Mikaela Angelina Uy, Quang-Hieu Pham, Binh-Son Hua, Duc Thanh Nguyen, Sai-Kit Yeung. Revisiting point cloud classification: A new benchmark dataset and classification model on real-world data. Conference on Computer Vision and Pattern Recognition (CVPR). 1588-1597, 2019.

[6] Zhirong Wu, Shuran Song, Aditya Khosla, Fisher Yu, Linguang Zhang, Xiaoou Tang, Jianxiong Xiao. 3D ShapeNets: A deep representation for volumetric shapes. Conference on Computer Vision and Pattern Recognition (CVPR). 1912-1920, 2015.



深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章