高阶智驾平权时代，BEV+Transformer架构或成必杀技？

文摘 2024-10-25 07:00 美国

当前，国内高阶智驾正站在市场高速增长的门槛上，这一领域的发展迎来了前所未有的机遇。随着技术的进步与消费者认知度的提升，国内汽车制造商之间的竞争焦点已不再仅仅是城市NOA的“开城数量”而是转向了更高层次的竞争——“端到端”大战。值得注意的是，在价格区间超过30万元的新能源车型中，高阶智能驾驶配置的普及率接近100%，这标志着一个全新的时代——智驾平权时代的到来。

什么是高阶智驾？

高阶智驾指的是更够提供高级别自动化驾驶功能的系统，根据国际汽车工程师学会（SAE International）制定的标准，自动驾驶技术分为六个等级（Level 0 - Level 5），从完全手动驾驶到完全自动驾驶。高阶智驾一般指的是处于Level 2以上，直至Level 5的技术。

欢迎加入自动驾驶实战群

在两年前，只要拥有高速NOA，就被视为拥有高阶智驾。然而，随着技术的快速发展和市场的日益成熟，高速NOA已逐渐失去了其稀缺性和独特性。如今，真正能够被称为“高阶”的智能技术，是城市NOA。相比高速场景，城市NOA的应用环境更为复杂多变，涉及到更多的交通参与者，如行人、自行车骑行者以及各种类型的车辆。此外，城市道路中还存在诸如交通信号灯、复杂路口等多种因素，这些都大大增加了城市NOA实现的难度。

从这里我们可以看到，高阶智驾的定义是动态的。

目前，高阶智驾的主流技术方案主要有两种：激光雷达方案与纯视觉方案。其中，激光雷达方案通过发射激光束并接收反射回来的信息，生成详细的点云图，来精确测量车辆与周围物体的距离，从而实现对车辆位置的精确定位以及对周围环境的高度精准感知和分析，还能有效应对各种光照条件和气候状况，具有较高的稳定性和可靠性，是市场上的主流选择。

相比之下，纯视觉处理方案的成本要低得多，主要依赖于车载摄像头采集的图像数据，并利用计算机视觉算法和深度学习模型来解析这些数据，从而实现对环境的理解和驾驶辅助功能。纯视觉方案在面对雨雪天气、夜间低光照等极端环境时，容易受到干扰导致识别错误或遗漏重要信息，稳定性不足。

今年不少车企在发布会上都陆陆续续喊出：“把高阶智驾价格打下来。”的口号。其中，其中，小鹏MONA M03 和长安深蓝S07尤为引人关注。小鹏MONA M03 以不到16万元的价格提供了小鹏的XNGP智驾系统，而深蓝S07借着搭载华为乾崑智驾系统,直接把售价做到了20万元以下。

高阶智驾价格战显然不可避免。

相关数据显示，中国绝大多数家庭的购车预算在20万以内。目前，市面上搭载激光雷达技术的新能源车型只有30万以上的高配或顶配，20万以下的车型，其智驾配置主要配备的是成本较低的纯视觉处理方案。

值得注意的是，上述这两款车型虽然实现了高阶智驾功能，但均未采用成本较高的激光雷达技术。余承东曾表示:“低于30万元的华为智驾都是亏钱的。”高阶智驾进入下沉市场已经不可避免，这也代表车企需要将价格控制在合理的范围之内，激光雷达的价格在市场趋势面前显示不够强势。

下面我们说说纯视觉方案。

在智能驾驶领域中，特斯拉一直都坚持纯视觉方案，马斯克认为“如果雷达与摄像头传来的信息相互矛盾，智能驾驶系统反而会难以抉择。不如只选其一，做到极致。”为了精进视觉处理的效率，特斯拉首先提出了基于BEV+Transformer的自动驾驶感知路线。

BEV能够提供全局视角，帮助系统更好地理解周围环境，提高感知和决策的准确性。此外，还可以将激光雷达、雷达和相机等多模态数据融合在同一平面上，这有助于在处理Corner Case时提供更好的支持。Transformer架构则被广泛应用于感知、预测与决策当中。BEV+Transformer架构，可以构建一个端到端的自动驾驶系统，优秀的数据处理能力为行驶过程中可能会遇到的Corner Case，提供了更安全的保障。

很多企业在认识到“端到端”纯视觉方案的经济效益后，也纷纷开始效仿，但是BEV+Transformer架构也并非是十全十美的。

首先，Transformer模型的计算资源和内存，对芯片的性能要求极高；其次，Transformer模型的优化与迭代需要海量的数据进行长时间的训练才能达到其最佳性能。这两点催生了国内企业普遍需要面对的算力问题以及数据问题。算力问题一直深受国家高度重视，车企建立智算中心也是势在必行，这样既可以降低长期成本，也可以提升数据闭环能力。

但数据问题所带来的挑战是多维度的，中国是一个道路条件复杂且天气多变的国家，这在一定程度上就会增加数据的处理需求，海量数据的处理这势必会影响标注成本的增加。只有数据这还远远不够，训练端到端模型是一个庞大且复杂的工程体系，为了训练出可用的 BEV 模型，需要大量的数据采集和预处理。包括从不同传感器（如摄像头和激光雷达）收集数据，并进行相应的预处理，以确保数据质量和一致性，这对国内标注企业提出了极高的要求。

为了更好地助力中国自动驾驶行业的蓬勃发展，博登智能正式推出了其自主研发的数据处理平台——BASE5.0。BASE平台以其卓越的适用性和全面的功能，能够高效地完成从数据采集、清洗、标注到最终验证的全流程服务。

BASE平台的数据处理能力覆盖了语音、文本、图像、视频以及点云等多种模态类型，这使得平台能够满足不同应用场景下的多样化需求。更重要的是，通过引入AI辅助标注，BASE5.0可显著降低传统标注过程中的成本投入，帮助企业节省大约40%-50%的成本，将工作效率提高50%以上。这种高效且经济的数据处理解决方案，无疑将为中国乃至全球的自动驾驶行业带来革命性的变化。

为了满足日益增长的高质量、多模态数据需求，博登智能不断优化和完善数据工程技术、数据标准规范以及标注方法，BASE5.0可开展包括通用图像标注，3D/4D点云标注，图片点云融合标注，NLP文本标注，医疗影像标注，视频描述标注，音素标注，音频标注等标注业务。

4D车道线

2D图像目标检测&语义分割

AVM语义分割

3D目标检测

3D语义分割

截至目前，博登智能依靠其在技术创新方面的卓越成就，已成功与众多行业内的领军企业构建了稳固的合作桥梁。这些合作伙伴涵盖了主机厂、通信服务商以及医疗健康等多个领域，其中包括知名的吉利汽车、零跑汽车、中国联通，以及全国各地的多家市级医院等。通过与这些头部企业的深入合作，博登智能不仅展示了自身强大的技术实力和服务水平，同时也为其持续发展奠定了坚实的基础。

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码，加入知识星球。

http://mp.weixin.qq.com/s?__biz=Mzg2Mzg5MzI5NA==&mid=2247486921&idx=1&sn=c7fed7ea8d707e42d29f07b3aa7e6783

Ai fighting

全网第一且唯一分享自动驾驶实战，以代码、项目的形式讲解自动驾驶感知方向的关键技术，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。

最新文章

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

一种transformer稀疏神经网络的硬件加速器算法

基于BLIP-2 融合视觉信息与轨迹规划信息进行空间融合，用于自动驾驶的多模态大语言模型的轨迹规划

从特斯拉看智能驾驶未来发展

理想汽车最新成果：基于MLLM的闭环规划智能体PlanAgent

大模型推理分离架构五虎上将

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

Thermal3D-GS：热红外新视点合成的物理诱导三维高斯(ECCV2024)

清华大学提出基于ESKF的松耦合里程计RINO：一种具有非迭代估计的精确、稳健的雷达惯性里程计

智驾无图真的可以实现吗？

纯卷积框架实现最快每秒30hz的ALOcc: 基于自适应升降的 3D 语义占据与成本体积流预测

多模态移动智能体基础与最新趋势调研：评估基准、核心组件、技术路线、发展趋势

PointLLM：使大型语言模型能够理解点云

智驾行业正在面临哪些变化？

VLM大模型在自动驾驶领域的创新应用--2024 年 PRCV 自动驾驶挑战赛冠军解决方案

ACCV'24 | MoD：轻量化、高效、强大的新型卷积结构

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

多模态移动智能体基础与最新趋势调研：评估基准、核心组件、技术路线、发展趋势

全面带你了解端到端大模型的底层逻辑（一）

自动驾驶中一直说的BEV+Transformer到底是个啥？

轨迹规划中优化预测：学习多个初始解的优化器

PCA中方差的效用

西安交通大学提出少锚点的端到端车道线检测算法Polar R-CNN

VLM大模型在自动驾驶领域的创新应用--2024 年 PRCV 自动驾驶挑战赛冠军解决方案

GET-UP：雷达-相机深度估计的几何感知与点云上采样框架

黑芝麻智能在智驾芯片领域发展如何了？

GaussianObject：仅需四张图片就能拥有高质量3D高斯重建（上交&华为）

GGS：提升自动驾驶车道变换逼真度的新型渲染技术

RT-DETR改进策略：BackBone改进|EfficientFormerV2在RT-DETR中的创新应用，精度与效率完美平衡

从原理到应用教你了解毫米波雷达

三维高斯泼溅:综述，技术，挑战和机遇

透视与 BEV 融合，HyDRa 混合 Transformer 模块提升3D感知能力！

量化挑战下的创新，LayerNorm 计算方法提升 LLMs推理性能！

规划误差降低27%，碰撞率降低33%Senna: 大规模视觉-语言模型与端到端自动驾驶相结合

XFeat:加速轻量级图像匹配(CVPR2024)

激光雷达与纯视觉方案，哪个才是自动驾驶最优选？

决策树也是一种矩阵乘法？

透视与 BEV 融合，HyDRa 混合 Transformer 模块提升3D感知能力！

The State of vLLM 2024

METDrive 多模态时控端到端自动驾驶！

端到端让智驾强者愈强时代来临？