LidaRefer：户外3D视觉定位的创新框架

文摘 2024-11-14 07:00 上海

作者 | ADFeed 编辑 | ADFeed

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

LidaRefer: Outdoor 3D Visual Grounding for Autonomous Driving with Transformers

论文：
https://arxiv.org/abs/2411.04351

LidaRefer 是一种专为大规模户外场景设计的3D视觉定位框架，旨在通过自然语言描述来定位3D场景中的相关对象或区域。该框架特别针对自动驾驶领域，能够有效处理由激光雷达（LiDAR）传感器捕获的广泛且稀疏的点云数据。

LidaRefer 的核心特点在于其能够捕捉全局上下文信息，并实现细粒度的跨模态融合，这使得它在处理户外环境中的复杂场景时表现出色。此外，LidaRefer在训练过程中引入了一种新颖的定位方法，能够同时定位目标对象和可能引起混淆的模糊对象，从而提高模型区分目标和非目标对象的能力。

LidaRefer 通过利用深度特征提取、前景特征选择、跨模态编码和目标识别网络，实现了对目标对象的精确定位。其独特的模糊对象定位方法，通过学习目标与模糊对象在空间关系和属性上的差异，增强了模型对目标的识别能力。这一方法不仅提高了目标识别的准确性，还显著提升了在复杂户外环境中的鲁棒性。

技术解读

LidaRefer 技术的思路是利用基于Transformer的架构来处理大规模户外场景中的3D视觉定位问题，通过自然语言描述精确定位3D场景中的目标对象。这项技术特别针对自动驾驶领域中由于点云数据的高维特征和稀疏性所带来的挑战，提出了一种新的定位方法，能够在保持计算效率的同时，提高对目标对象的识别和定位精度。

具体来说，LidaRefer的处理过程包括以下关键步骤：

首先，通过视觉和文本编码器将输入的3D点云和RGB图像以及自然语言描述转换成深度特征；
接着，采用前景特征选择策略从高维视觉特征中筛选出与目标对象相关的有用特征，以减少计算和内存开销；
然后，通过Transformer-based跨模态编码器捕获上下文信息并执行细粒度的跨模态对齐；
之后，利用目标识别网络基于目标置信度分数确定目标查询；
最后，通过解码器与跨模态特征的交互来预测目标对象的3D边界框。

LidaRefer的技术特点在于其能够同时定位目标对象和可能引起混淆的模糊对象，通过学习它们在空间关系和属性上的差异来增强模型的区分能力。此外，LidaRefer在训练时采用了一种简单而有效的监督方法，即模糊对象定位，这使得模型能够更好地理解和区分目标与非目标对象。

LidaRefer 技术为自动驾驶领域提供了一种高效且准确的3D视觉定位解决方案，特别是在处理户外环境中复杂的3D场景时。随着自动驾驶技术的发展，对精确视觉定位的需求日益增长，LidaRefer能够提供强大的技术支持，帮助车辆更好地理解和响应自然语言指令，从而提高自动驾驶的安全性和效率。

论文解读

这篇论文提出了一个名为LidaRefer的户外3D视觉定位框架，以下是内容要点概括：

摘要

3D视觉定位（VG）旨在根据自然语言描述在3D场景中定位对象或区域，对自动驾驶等应用至关重要。
本文提出了LidaRefer框架，专门针对大规模户外场景，通过引入一种新的定位方法来区分目标对象和可能混淆的模糊对象。
LidaRefer在Talk2Car-3D数据集上取得了最先进的性能。

引言

3D VG在室内场景已经取得了进展，但在户外环境更具挑战性。
LidaRefer利用3D点云和RGB图像作为视觉输入，语言描述作为文本输入，提出了一种新的户外3D VG框架。

方法

框架概述

LidaRefer框架处理包括点云和RGB图像的视觉输入以及语言描述的文本输入。
介绍了LidaRefer的五个主要模块：特征提取、前景特征选择、跨模态融合、目标识别和定位。

特征提取

描述了视觉编码器和文本编码器的工作原理，以及如何将视觉数据和文本数据编码成深度特征。

前景特征选择

为了减少计算和内存开销，从BEV特征中选择有用的前景特征作为视觉标记。

跨模态融合

描述了基于变换器的跨模态编码器如何通过自注意力和交叉注意力捕获上下文信息并执行细粒度的跨模态对齐。

目标识别和定位

介绍了如何通过解码器更新查询来预测目标对象的3D边界框。

模糊对象定位

提出了一种同时定位目标和模糊对象的方法，通过识别它们在空间关系和属性上的差异来区分目标和模糊对象。

实验

在Talk2Car-3D数据集上评估LidaRefer，并使用Acc@IoUthr作为评估指标。
提供了实现细节，包括训练设置和比较模型。
展示了主要结果和分析，证明了LidaRefer在不同配置下的性能优势。
提供了定性结果，展示了LidaRefer在各种场景下的有效性。

结论

LidaRefer通过有效的全局上下文理解和跨模态对齐，提高了自动驾驶在大规模户外场景中的3D视觉定位能力。
论文还介绍了一种新的定位方法来区分目标和模糊对象，并通过实验验证了LidaRefer的优越性。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247516204&idx=2&sn=64d512c7cb41015066223ceb104a6300

3D视觉之心

3D视觉与SLAM、点云相关内容分享

最新文章

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

15 个改变世界的开源项目：塑造现代技术的先锋力量

多实例点云配准新SOTA！3DFMNet：简单而有效的3D聚焦与匹配网络(NeurIPS'24)

LidaRefer：户外3D视觉定位的创新框架

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

新国立联合微软共同打造：3D和4D场景均可生成的GenXD来了！

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

基于单目视觉惯性的同步定位与地图构建方法综述

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

不用encoder也能重建点云？PCP-MAE：基于中心预测的点云MAE自监督新框架（NeurIPS'24 Spotlight）

商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

slam相关开源数据集资源汇总（KITTI、CODD、MAOMaps）

3D激光雷达分辨率对基于图的SLAM方法究竟有何影响？

3DV 2024 | 基于超点图聚类的可扩展三维全视分割

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

2024年图像匹配挑战赛：银牌解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

LidaRefer：户外3D视觉定位的创新框架

摘要

引言

相关工作

3D视觉定位

上下文感知建模

方法

框架概述

特征提取

前景特征选择

跨模态融合

目标识别和定位

模糊对象定位

实验

结论