【2023图像图形学发展年度报告】“三维视觉—语言”推理技术的前沿研究与最新趋势

学术 2024-07-31 17:25 北京

2023年图像图形学发展年度报告综述专刊重磅发布！中国图象图形学学会14个专委会、百余位专家学者倾力之作，14篇学科重要方向综述论文，梳理学科发展脉络，全面展示研究现状、前沿、热点及趋势。

三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图，从而限制了该技术的普及与推广。为此，研究人员以自然语言作为语义背景和查询条件反映用户意图，进而与点云的信息进行交互以完成相应的任务。此种范式称做“三维视觉—语言”推理，在自动驾驶、机器人导航以及人机交互等众多领域广泛应用，已经成为计算机视觉领域中备受瞩目的研究方向。

今日推荐“2023图像图形学发展年度报告”综述专刊论文“三维视觉—语言”推理技术的前沿研究与最新趋势（作者：雷印杰，徐凯*，郭裕兰，杨鑫，武玉伟，胡玮，杨佳琪，汪汉云）聚焦于两类最具代表性的研究工作，锚框预测和内容生成类的“三维视觉—语言”推理技术，系统性概括领域内研究的最新进展。

该文由中国图象图形学学会三维视觉专业委员会组织撰写。

识别下方二维码，关注学会公众号

回复【年度报告】

免费获取专刊论文电子版

论文信息

“三维视觉—语言”推理技术的前沿研究与最新趋势

作者：雷印杰，徐凯*，郭裕兰，杨鑫，武玉伟，胡玮，杨佳琪，汪汉云

关键词：深度学习；计算机视觉；“三维视觉—语言”推理；跨模态学习；视觉定位；密集字幕生成；视觉问答；场景生成

引用格式：Lei Yinjie， Xu Kai， Guo Yulan， Yang Xin， Wu Yuwei， Hu Wei， Yang Jiaqi， Wang Hanyun. 2024. Comprehensive survey on 3D visual-language understanding techniques. Journal of Image and Graphics， 29(06):1747-1764

DOI：10.11834/jig.240029

➪点击文末阅读原文

论文看点

论文的主要贡献如下：1）总结了“三维视觉—语言”推理的问题定义和现存挑战，同时概述了一些常见的骨干网络。2）按照方法所关注的下游场景，对两类“三维视觉—语言”推理技术做了进一步细分，并深入探讨了各方法的优缺点。3）对比分析了各类方法在不同基准数据集上的性能。4）展望了“三维视觉—语言”推理技术的未来发展前景，以期促进该领域的深入研究与广泛应用。

锚框预测类三维视觉—语言推理包括三维视觉定位以及开放词汇三维物体识别。三维视觉定位的定义是基于与对象相关的语言查询，在三维点云场景中定位目标对象或区域。开放词汇的三维物体识别的定义是在推理过程中找出由未见过的（开放）词汇定义的全新种类的三维对象。
内容生成类“三维视觉—语言”推理包括三维问答、三维密集字幕生成以及文本驱动的三维场景生成。三维密集字幕生成的定义是识别三维点云场景中所有可能的实例，并为每个实例生成相应的自然语言描述。三维问答的定义是在理解整个三维场景的基础上准确回答给出的问题。文本驱动的场景生成的定义是按照自然语言描述合成一个由复杂背景和多个对象组成的逼真三维场景。
其他“三维视觉-语言”推理范式包括“视觉定位—密集字幕”生成联合框架和“三维视觉—语言”预训练，将三维视觉定位和密集字幕生成统一到一个框架中，视觉定位组件可以提供物体关联性信息来提高描述的精准性；字幕生成可以提供物体的属性信息来改善视觉定位的性能。而当前的“三维视觉—语言”理解方法通常是面向特定任务的，缺乏通用的可以应用于各种应用场景的跨模态表示学习的基础模型。因此，开发一个通用的“三维视觉—语言”框架是必要的。
性能评估部分首先介绍了“三维视觉—语言”场景常用数据集，给出了各维度的评价指标，并对三维 + 语言场景理解方法的性能在不同数据集上的性能进行综合评估

重要图表

图 1 三维视觉定位方法（Luo等，2022）

图 2 开放词汇三维物体识别方法

图 3 三维密集描述方法（Chen等，2023b）

表 1 在ScanRefer数据集上进行的3D视觉定位研究结果

表 2 在ScanRefer数据集上进行的3D密集字幕研究结果

表 3 在ScanQA数据集上的各视觉问答方法的性能评估

表 4 在SQA3D数据集上的各情境问答方法的结果评估

总结与展望

本文总结了“三维视觉—语言”推理的问题定义和现存挑战；其次，针对锚框预测类和内容生成类下游场景，讨论了其中各“三维视觉—语言”推理技术的优缺点；最后，提供了现有方法在各基准数据集上的性能评估结果，并对结果进行了深入分析。“三维视觉—语言”推理依旧存在许多有待探索的方向。以下提供一些具有研究潜力的未来方向。

1）“三维视觉—语言”大模型的构建与应用。现有的研究关注于将“二维视觉—语言”大模型中的知识迁移到三维特征提取网络中，由于“点云—图像”对的规模有限，且知识迁移过程中的几何信息难以建模，因此其在零样本识别和各下游任务上的性能受到一定限制。因此，构建“三维视觉—语言”大模型势在必行。一方面，建立大规模的“点云场景—文本”数据集是构建此类基础模型的必要条件；另一方面，高效的微调迁移方法，例如提示学习和LoRA等技术，是将预训练好的基础模型应用至下游任务中的关键，也是很有前景的研究方向之一。

2）降低三维场景理解的计算复杂性。由于需要处理不同模态的信息，“三维视觉—语言”场景理解的计算复杂性非常高。因此，降低现有三维场景理解技术的计算开销势在必行。为此，针对神经网络压缩技术，例如网络量化和结构剪枝等技术的研究，是解决此类问题的一大研究方向。除此以外，利用Flash-Attention等硬件优化策略有助于实现三维场景理解算法在移动边缘设备上的部署，为提高计算效率提供了另一条研究途径。

3）增加模态信息的丰富性。虽然“三维视觉—语言”推理的研究近几年间突飞猛进，但是几乎全部的工作均聚焦在“点云—语言”的交互上。如果可以将音频等其他模态的信息进一步地整合到算法当中，不但可以提高算法的鲁棒性，而且可以增强算法的交互性。考虑到从头训练一个集成三种或以上模态的三维场景理解模型不但费时费力，而且成对的训练数据也难以获取，因此，将现有的三维场景理解模型和其他的模态特异性模型集成使用是一种切实可行的途径。以音频和点云模态为例，可以使用少量的“音频—点云”样本对，训练中间组件，以对齐音频特异性和点云特异性模型。

作者简介

雷印杰，四川大学电子信息学院教授，主要研究方向为计算机视觉。

E-mail：yinjie@scu.edu.cn

徐凯，通信作者，国防科技大学计算机学院教授，主要研究方向为计算机图形学。

E-mail：kevin.kai.xu@gmail.com

郭裕兰，国防科技大学电子科学学院副教授，主要研究方向为计算机视觉。

E-mail：yulan.guo@nudt.edu.cn

杨鑫，大连理工大学计算机科学与技术学院教授，主要研究方向为计算机图形学。

E-mail：xinyang@dlut.edu.cn

武玉伟，北京理工大学计算机学院副教授，主要研究方向为计算机视觉。

E-mail：wuyuwei@bit.edu.cn

胡玮，北京大学王选计算机研究所副教授，主要研究方向为计算机视觉。

E-mail：forhuwei@pku.edu.cn

杨佳琪，西北工业大学计算机学院副教授，主要研究方向为计算机视觉。

E-mail：jqyang@nwpu.edu.cn

汪汉云，信息工程大学计算机与大数据学院/软件学院副教授，主要研究方向为计算机视觉。

E-mail：why_scholar@126.com

CSIG三维视觉专业委员会

中国图象图形学学会三维视觉专委会 (CSIG-3DV) 定位于推动三维视觉理论、技术与应用的发展，探讨人工智能时代三维视觉的新理论和新技术，通过融合计算机视觉、图形学、大数据以及机器人技术的最新进展，推动三维视觉理论和方法体系的构建和发展、提高三维视觉算法及系统的易用性及效率、加快三维视觉技术的实用化和产业落地。专委会积极建立常态化的学术交流机制，通过相关领域专家学者的思想碰撞，达成研究方向及技术应用上的共识，推动相关领域的研究进展及产学研合作。

➩专委会链接：

https://www.csig.org.cn/16/201811/49335.html

欢迎扫描二维码加入中国图象图形学学会

（http://membership.csig.org.cn）

【重要通知】中国图象图形学学会2024年度奖励和激励计划推荐工作启动

中国图象图形学学会科普活动、素材征集通知

中国图象图形学学会高校志愿者招募

中国图象图形学学会关于组织开展科技成果评价的通知

2024年CSIG图像图形中国行承办方征集中

http://mp.weixin.qq.com/s?__biz=MzUxMDE4MzAzOA==&mid=2247782821&idx=2&sn=257912afd51fa951494ba0ac7a2f60e7

中国图象图形学学会CSIG

发布图象图形技术的理论研究、应用推广、科学普及、专业培训、技术咨询、学术交流、出版专业书刊等信息，促进该学科技术的发展和在国民经济各个领域的推广应用。

最新文章

【ChinaVR 2024】第二十四届中国虚拟现实大会顺利举办

【动态】第五期中国图象图形学学会理事荟活动成功举办

【预告】“科创榕智汇”空天信息技术论坛将于11月19日在福州召开

【动态】第32期CSIG企业行—走进北京航天晨信科技有限责任公司成功举办

【直播预告】CSIG图像图形技术国际在线研讨会第13期将于11月22日举办

【CSIG青年科学家会议2024】大会论坛总览

【速览】NeurIPS 2024 | 长尾目标检测预训练：具有对偶重构的动态重平衡对比学习

【预告】可信联邦学习冬令营·武汉站将于11月18-19日举办

【Visual Intelligence】四川大学、南开大学、阿联酋MBZUAI等6所大学团队最新成果：视觉语言大模型性能评估

【动态】CSIG图像图形学科前沿讲习班--“AIGC+具身智能前沿技术及创新应用”成功举办

【预告】第二届CSIG情感智能大会将于12月6-8日举办

【学习时间】构建与新质生产力相适应的新型生产关系

【动态】通用人工智能青年科学家沙龙在京举办

【Visual Intelligence】南洋理工大学和复旦大学团队：PrimitiveNet模型：在引用分割任务中拆解全局约束

【科普动态】“CSIG科普大讲堂--11.9全国消防日：智慧消防科普活动”成功举办

【动态】CSIG成像探测与感知专委会举办二十五期“AI新青年讲坛”学术活动

【动态】CSIG成像探测与感知专委会举办二十六期“AI新青年讲坛”学术活动

【委员纳新】2024年CSIG情感计算与理解专委会委员纳新！

【直播预告】第五期CSIG理事荟活动将于11月14日晚8点开始

【动态】中国图象图形学学会走进启元实验室调研交流

【竞赛】“天翼云息壤杯”高校AI大赛，百万奖金等你来！

【科普动态】CSIG数字媒体取证与安全专委会走进合肥市中国科技大学附属中学

【动态】第三十期CSIG文档图像分析与识别专业委员会学术微沙龙成功举办

【通知】关于召开第五届CSIG图像图形高峰论坛暨CSIG遥感图像专委会工作会议的通知

【预告】“科创榕智汇”空天信息技术论坛将于11月19日在福州召开

【直播预告】CSIG云讲堂：11月12日19点，佃仁伟主讲：高光谱融合成像

【党建】CSIG数字媒体取证与安全专委会党小组红色党建第二次活动成功举办

【动态】2024中国机器智能与生物医学交叉创新论坛圆满举行

【动态】第30期企业行——走进视比特机器人成功举办

【动态】第31期企业行——走进铁建重工成功举办

【活动预告】通用人工智能青年科学家沙龙将于11月9日在北京召开

【动态】Visual Intelligence 视觉智能前沿报告会在上海交通大学成功举办

【动态】中国图象图形学学会第八期优博论坛顺利召开

【动态】CSIG数字媒体取证与安全专委会召开2024年度常务委员会会议

【学习时间】习近平对社会工作作出重要指示

【CCIG 2025】2025中国图象图形大会论坛征集正式开启

【动态】第四期中国图象图形学学会理事荟活动成功举办

【预告】“AIGC+具身智能前沿技术及创新应用”讲习班将于11月9日在杭州开班！

【动态】CSIG数字媒体取证与安全专委会召开2024年专委会换届暨纳新会议

【预告】CSIG11月活动速递第一弹，快来一睹为快~

【动态】人工智能与虚拟现实赋能文化遗产学术研讨会暨中国图象图形学学会数字文化遗产专委会走进泉州师范学院成功举办

【预告】复杂地下空间火灾风险评估和应急救援+消防科普活动将于11月9日举办

【预告】第32期CSIG企业行——走进航天晨信将于11月6日举办

【通知】2025图像图形领域系列榜单征集遴选活动正式启动！

【动态】2024第五届中国媒体取证与安全大会在济南成功举办

【CSIG月报】2024年10月热点回顾

【预告】首届“CSIG青少年智能技术与创新科普活动”邀您共参与

【速览】TNNLS 2024 | 基于轻量级注意力的实时双路径物体检测网络

【ChinaVR 2024】特邀嘉宾重磅预告

【动态】2024年中国科协海智专家服务团湖南行暨中国图象图形学学会智能制造新质生产力研讨会在长沙成功召开

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉