今日推荐“2023图像图形学发展年度报告”综述专刊论文“三维视觉—语言”推理技术的前沿研究与最新趋势(作者:雷印杰,徐凯*,郭裕兰,杨鑫,武玉伟,胡玮,杨佳琪,汪汉云)聚焦于两类最具代表性的研究工作,锚框预测和内容生成类的“三维视觉—语言”推理技术,系统性概括领域内研究的最新进展。
该文由中国图象图形学学会三维视觉专业委员会组织撰写。
识别下方二维码,关注学会公众号
回复【年度报告】
免费获取专刊论文电子版
“三维视觉—语言”推理技术的前沿研究与最新趋势
作者:雷印杰,徐凯*,郭裕兰,杨鑫,武玉伟,胡玮,杨佳琪,汪汉云
关键词:深度学习;计算机视觉;“三维视觉—语言”推理;跨模态学习;视觉定位;密集字幕生成;视觉问答;场景生成
引用格式:Lei Yinjie, Xu Kai, Guo Yulan, Yang Xin, Wu Yuwei, Hu Wei, Yang Jiaqi, Wang Hanyun. 2024. Comprehensive survey on 3D visual-language understanding techniques. Journal of Image and Graphics, 29(06):1747-1764
DOI:10.11834/jig.240029
➪点击文末阅读原文
论文的主要贡献如下:1)总结了“三维视觉—语言”推理的问题定义和现存挑战,同时概述了一些常见的骨干网络。2)按照方法所关注的下游场景,对两类“三维视觉—语言”推理技术做了进一步细分,并深入探讨了各方法的优缺点。3)对比分析了各类方法在不同基准数据集上的性能。4)展望了“三维视觉—语言”推理技术的未来发展前景,以期促进该领域的深入研究与广泛应用。
锚框预测类三维视觉—语言推理包括三维视觉定位以及开放词汇三维物体识别。三维视觉定位的定义是基于与对象相关的语言查询,在三维点云场景中定位目标对象或区域。开放词汇的三维物体识别的定义是在推理过程中找出由未见过的(开放)词汇定义的全新种类的三维对象。
内容生成类“三维视觉—语言”推理包括三维问答、三维密集字幕生成以及文本驱动的三维场景生成。三维密集字幕生成的定义是识别三维点云场景中所有可能的实例,并为每个实例生成相应的自然语言描述。三维问答的定义是在理解整个三维场景的基础上准确回答给出的问题。文本驱动的场景生成的定义是按照自然语言描述合成一个由复杂背景和多个对象组成的逼真三维场景。
其他“三维视觉-语言”推理范式包括“视觉定位—密集字幕”生成联合框架和“三维视觉—语言”预训练,将三维视觉定位和密集字幕生成统一到一个框架中,视觉定位组件可以提供物体关联性信息来提高描述的精准性;字幕生成可以提供物体的属性信息来改善视觉定位的性能。而当前的“三维视觉—语言”理解方法通常是面向特定任务的,缺乏通用的可以应用于各种应用场景的跨模态表示学习的基础模型。因此,开发一个通用的“三维视觉—语言”框架是必要的。
性能评估部分首先介绍了“三维视觉—语言”场景常用数据集,给出了各维度的评价指标,并对三维 + 语言场景理解方法的性能在不同数据集上的性能进行综合评估
图 1 三维视觉定位方法(
图 2 开放词汇三维物体识别方法
图 3 三维密集描述方法(
表 1 在ScanRefer数据集上进行的3D视觉定位研究结果
表 2 在ScanRefer数据集上进行的3D密集字幕研究结果
表 3 在ScanQA数据集上的各视觉问答方法的性能评估
表 4 在SQA3D数据集上的各情境问答方法的结果评估
本文总结了“三维视觉—语言”推理的问题定义和现存挑战;其次,针对锚框预测类和内容生成类下游场景,讨论了其中各“三维视觉—语言”推理技术的优缺点;最后,提供了现有方法在各基准数据集上的性能评估结果,并对结果进行了深入分析。“三维视觉—语言”推理依旧存在许多有待探索的方向。以下提供一些具有研究潜力的未来方向。
1)“三维视觉—语言”大模型的构建与应用。现有的研究关注于将“二维视觉—语言”大模型中的知识迁移到三维特征提取网络中,由于“点云—图像”对的规模有限,且知识迁移过程中的几何信息难以建模,因此其在零样本识别和各下游任务上的性能受到一定限制。因此,构建“三维视觉—语言”大模型势在必行。一方面,建立大规模的“点云场景—文本”数据集是构建此类基础模型的必要条件;另一方面,高效的微调迁移方法,例如提示学习和LoRA等技术,是将预训练好的基础模型应用至下游任务中的关键,也是很有前景的研究方向之一。
2)降低三维场景理解的计算复杂性。由于需要处理不同模态的信息,“三维视觉—语言”场景理解的计算复杂性非常高。因此,降低现有三维场景理解技术的计算开销势在必行。为此,针对神经网络压缩技术,例如网络量化和结构剪枝等技术的研究,是解决此类问题的一大研究方向。除此以外,利用Flash-Attention等硬件优化策略有助于实现三维场景理解算法在移动边缘设备上的部署,为提高计算效率提供了另一条研究途径。
3)增加模态信息的丰富性。虽然“三维视觉—语言”推理的研究近几年间突飞猛进,但是几乎全部的工作均聚焦在“点云—语言”的交互上。如果可以将音频等其他模态的信息进一步地整合到算法当中,不但可以提高算法的鲁棒性,而且可以增强算法的交互性。考虑到从头训练一个集成三种或以上模态的三维场景理解模型不但费时费力,而且成对的训练数据也难以获取,因此,将现有的三维场景理解模型和其他的模态特异性模型集成使用是一种切实可行的途径。以音频和点云模态为例,可以使用少量的“音频—点云”样本对,训练中间组件,以对齐音频特异性和点云特异性模型。
雷印杰,四川大学电子信息学院教授,主要研究方向为计算机视觉。
E-mail:yinjie@scu.edu.cn
徐凯,通信作者,国防科技大学计算机学院教授,主要研究方向为计算机图形学。
E-mail:kevin.kai.xu@gmail.com
郭裕兰,国防科技大学电子科学学院副教授,主要研究方向为计算机视觉。
E-mail:yulan.guo@nudt.edu.cn
杨鑫,大连理工大学计算机科学与技术学院教授,主要研究方向为计算机图形学。
E-mail:xinyang@dlut.edu.cn
武玉伟,北京理工大学计算机学院副教授,主要研究方向为计算机视觉。
E-mail:wuyuwei@bit.edu.cn
胡玮,北京大学王选计算机研究所副教授,主要研究方向为计算机视觉。
E-mail:forhuwei@pku.edu.cn
杨佳琪,西北工业大学计算机学院副教授,主要研究方向为计算机视觉。
E-mail:jqyang@nwpu.edu.cn
汪汉云,信息工程大学计算机与大数据学院/软件学院副教授,主要研究方向为计算机视觉。
E-mail:why_scholar@126.com
中国图象图形学学会三维视觉专委会 (CSIG-3DV) 定位于推动三维视觉理论、技术与应用的发展,探讨人工智能时代三维视觉的新理论和新技术,通过融合计算机视觉、图形学、大数据以及机器人技术的最新进展,推动三维视觉理论和方法体系的构建和发展、提高三维视觉算法及系统的易用性及效率、加快三维视觉技术的实用化和产业落地。专委会积极建立常态化的学术交流机制,通过相关领域专家学者的思想碰撞,达成研究方向及技术应用上的共识,推动相关领域的研究进展及产学研合作。
➩专委会链接:
https://www.csig.org.cn/16/201811/49335.html
欢迎扫描二维码加入中国图象图形学学会
(http://membership.csig.org.cn)