张志煌,许萌,李亮等 | BEV-Locator:基于多视角图像的端到端视觉语义定位网络

文摘科技 2024-09-14 12:01 北京

研究团队

张志煌，李亮：清华大学车辆与移动性研究院

许萌：对外经济贸易大学信息技术与管理学院

周文强，彭涛：轻舟智航公司

Stefan Poslad：伦敦大学玛丽女王学院电子工程与计算机科学学院

文章下载

Zhihuang Zhang, Meng Xu, Wenqiang Zhou, Tao Peng, Liang Li & Stefan Poslad. BEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images. Sci China Inf Sci, 2024, doi: 10.1007/s11432-023-4114-6

研究意义

在自动驾驶中，精确的定位能力是至关重要的。传统的视觉定位框架通过几何模型来解决语义地图匹配问题，但这些模型依赖于复杂的参数调优，阻碍了大规模部署。为了克服这些挑战，我们提出了BEV-Locator，一种使用多视图图像的端到端视觉语义定位神经网络。该网络能够在不同驾驶环境（包括高速场景）中提供高精度的定位。

本文工作

本文提出了一个完整的端到端视觉语义定位框架，该系统由视觉BEV编码器、语义地图编码器、跨模态Transformer和姿态解码器组成。首先，视觉BEV编码器将多视图图像提取并展平到BEV空间。然后，语义地图编码器将语义地图特征嵌入为地图查询序列。跨模态Transformer将BEV特征和语义地图查询关联起来。最后，通过解码器的输出，可以推断出车辆的姿态信息。

本文的创新点如下：

(1) 提出了一种新的端到端架构，通过多视图图像和语义环境进行视觉语义定位，实现了准确的车辆姿态估计。

(2) 采用了变压器结构来处理跨模态特征关联、查询和编码解码，解决了语义地图元素和相机图像之间的跨模态匹配关键问题。

(3) 利用周围图像通过统一的BEV特征空间增强了图像的感知能力，验证了将视觉语义定位问题作为基于BEV特征的大模型子任务的可行性。

(4) 在大规模的nuScenes和Qcraft数据集上进行了一系列实验，展示了所提出模型的有效性，在横向、纵向平移和航向角度上的平均绝对误差分别为0.052m、0.135m和0.251°。

实验结果

本文提出的控制方案在nuScenes和Qcraft数据集上进行了验证。在实验过程中，周围视图的图像被组合形成BEV特征。通过比较上图和下图可以看出，地图元素与相机视图中的元素吻合，证明了BEV-Locator的有效性。

nuScenes数据集结果：

误差曲线表明，BEV-Locator在nuScenes数据集上生成了出色的姿态精度。横向和纵向方向的误差分别小于20厘米和60厘米，航向方向的误差小于1°。

Qcraft数据集结果：

在Qcraft数据集上，BEV-Locator展示了更高的精度，特别是在高速场景中，路面元素清晰，地图质量高，定位相对容易。横向和纵向误差分别低于10厘米和40厘米。

通过对比实验结果，BEV-Locator在视觉语义定位问题上表现出色，能够在大规模数据集上实现高精度的车辆定位。

http://mp.weixin.qq.com/s?__biz=MzAxNjgwMjA5Ng==&mid=2651171148&idx=1&sn=22cb9de28de203d48ff1a61ce4f5a02e

中国科学信息科学

《中国科学：信息科学》及其英文版《Science China Information Sciences》的宣传平台。

最新文章

曹文强,闫敬,关新平等 | 基于流速场预测的水下机器人编队包围算法（有视频）

杨烨峰,李博扬,温志涌等 | 复杂场景中机器人高效轨迹规划与避障方法

张志煌,许萌,李亮等 | BEV-Locator:基于多视角图像的端到端视觉语义定位网络

林相泽,黄景新,程佳妮,李世华 | 有输出约束的二阶切换系统固定时间输出反馈镇定

湖南大学与松山湖材料实验室合作团队 | 基于纯p-GaN结构制备增强型p沟道GaN场效应管

基于注意力的联想忆阻脉冲神经网络及其无监督图像分类应用

姬春婷,张正强,解学军 | 双曲偏微分方程的自适应事件触发输出反馈控制

祝贺！《中国科学: 信息科学》2023年度优秀审稿人

孔小兵,王文文,刘向杰 | 风电场分布式经济模型预测控制

基于显著性引导的元数据生成网络:一种小样本学习的新路径

武汉大学童亦雯, 冯琦, 罗敏, 何德彪 | 具有特权方的隐私保护决策树训练方案

SCIS会议 | 第51次《中国科学：信息科学》前沿学术沙龙

祝贺！12篇文章入选SCIS 2023年度优秀论文奖

征稿启事：量子信息专题（英文版）

征稿启事 | 大模型使能技术与前沿应用（英文版）

东南大学陆卫兵团队 | 适用于人体物联网应用的鲁棒性织物基人工等离子频率扫描天线

北京化工大学王友清团队 | 多障碍下视线追逃博弈的混合纳什均衡求解（MOOP）

李延超,肖甫,余水等 | 用于细粒度视觉识别的元标签关联损失

征稿启事 | 面向5GA/6G网络的分布式卫星系统专题（英文版）

北航郭雷院士团队 | 仿生智能导航：从方法论、系统论到行为论

杨德仁院士团队皮孝东研究组 | 基于4H-SiC的高温光电神经突触器件

重磅！基于深度学习的软件工程：进展、挑战和机遇

哈工大焦健, 张钦宇等 | 基于信息效用的分布式卫星语义感知协作传输

何德峰,罗捷,李永福 | 通信拓扑切换下车辆队列分布式多目标预测控制

重庆邮电大学曾宪华等 | 一种结构范数正则化的可微神经结构搜索算法

打破调度模型的“黑盒”—— 一种面向内容分发网络的可解释缓存策略

RISTA前沿大讲堂 | 面向低空经济的协作通感一体化关键技术-东南大学潘存华教授

郑文栋,刘华平,孙富春等 | 机器人大面积触觉传感的数据驱动电阻层析成像技术

北工大张永哲团队 | 一步法制备的MoS2突触晶体管

基于全局密度更新策略的两阶段多模态多目标进化算法

面向空间网络应用的LTP可靠传输交付时延和跨层包尺寸分析

《中国科学: 信息科学》2024年第8期目录

山东师范大学李海涛团队 | 故障攻击下Grain型级联反馈移位寄存器的非奇异性

燕山大学华长春团队 | 时变时延下非线性网络化遥操作系统的有限时间复合学习控制

南京信息工程大学孙乐, 王月缘, 任勇军等 | 基于路径签名的支持可解释人工智能的网络时间序列分类

虞文武,聂晓凯,崔铁军等 | 智能反射表面辅助的无线通信网络性能优化综述

西安邮电大学陈海峰等 | 具有无限大光暗电流比的β-氧化镓日盲紫外探测器

北航于天舒,夏长群,李甲 | 面向不平衡运动：基于部件解耦的视频人像分割方法

浙江大学李波, 程冠杰, 邓水光等 | 区块链在6G网络下的场景分析与性能评估

2024年第8期目录 | SCIENCE CHINA Information Sciences

哈工大周彬,段广仁等 | 基于非奇异周期滞后滑模的指定时间控制方法

吕欣宇,牛玉刚,James Lam | 线性重复过程的事件触发滑模控制及其金属轧制过程应用

魏猛猛,王磊,尤著宏等 | 生物知识图谱融合多源特征的circRNA与miRNA相互作用预测

张文祥,魏航,刘滨等 | 构建异构图神经网络识别和预测多类型RNA和疾病关联关系

SCIS会议 | 第50次《中国科学：信息科学》前沿学术沙龙

征稿启事 | 6G通感一体化技术专题（英文版）

征稿启事：新型存储材料与器件：铁电与氧化物半导体专题（英文版）

SCIS会议 | 第50次《中国科学：信息科学》前沿学术沙龙

谌煜,关永强,田野 | 符号网络下广义多智能体系统的能控性

上海技术物理研究所王旭东团队 | 二维铁电体α-In2Se3中的体光伏效应

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉