理想如何从智驾追随者成为领先者

汽车 2024-12-25 08:40 江苏

编者语：后台回复“入群”，加入「智驾最前沿」微信交流群

端到端自动驾驶有全局式（一段式）和分段式（两段式）两种，其中全局式端到端思路清晰，研发成本远低于分段式，无需任何人工标注数据集，依赖谷歌、META、阿里和OpenAI等开发的多模态大模型。站在这些科技巨人肩上，性能比分段式端到端要好不少，但部署成本极高。

分段式的感知阶段仍然使用传统的CNN骨干网提取特征，在路径规划阶段使用端到端，性能虽然不如全局式，但部署成本比全局式端到端要低。这里的部署成本低是相对的，与目前主流的传统BEV+OCC+决策树相比，分段式的部署成本还是很高的。

全局式端到端的代表：WAYMO的EMMA，图片来源：Waymo

全局式端到端的代表有Waymo的EMMA，直接输入视频，没有骨干网，核心就是多模态大模型。分段式端到端的代表有UniAD。

分段式端到端的典型代表：UniAD整体架构，图片来源：论文《Planning-oriented Autonomous Driving》

以能否得到反馈为标准，端到端自动驾驶的研究主要分为两类：一类是在模拟器比如CARLA中进行，规划的下一步指令可以被真实的执行；第二类主要是在已经采集的现实数据上进行端到端研究，主要是模仿学习，参考UniAD。端到端自动驾驶目前都是开环的，不能真正看到自己的预测指令执行后的效果。由于不能得到反馈，开环自动驾驶的测评很受限制，现在文献中常用的两种指标包括L2距离和碰撞率。

L2 距离：通过计算预测轨迹和真实轨迹之间的L2距离来判断预测轨迹的质量
Collision Rate碰撞率: 通过计算预测轨迹和其他物体发生碰撞的概率，来评价预测轨迹的安全性

端到端自动驾驶最吸引人之处是性能提升潜力大，最早的端到端是UniAD，这是2022年底的论文，L2距离高达1.03米，2023年底就大幅提升至0.55米，2024年底进一步升到0.22米。地平线是端到端领域最活跃的公司之一，其技术发展路径也显示出了端到端路线整体的演进路径。UniAD出来之后，地平线立刻提出理念与UniAD接近的VAD，性能远超UniAD。这之后地平线转向全局端到端，第一个成果是HE-Driver，参数量比较大，然后是最近的Senna，参数量有所缩小，也是目前性能最佳的端到端方案之一。

Senna模型，图片来源：《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》

部分端到端系统的核心仍然是传统算法BEVFormer，BEVFormer默认使用了车辆CAN总线信息，这里面包含了与自车速度，加速度，转向角相关的信息，这些都是显性的，对路径规划影响很大。这些端到端系统仍然需要监督训练，大量的人工标注就不可缺少，这让数据成本很高，再有既然借鉴了GPT的理念，为何不直接用LLM？于是有了理想汽车的DriveVLM。

下图是理想DriveVLM的模型pipeline，主要包括场景描述、场景分析、层级规划三个主要模块设计。

图片来源：《DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》

DriveVLM场景描述模块的功能主要分为两部分——环境描述和关键物体识别。其中，环境描述主要是对共性的驾驶环境的描述，比如天气和道路状况等；关键物体识别则是为了找出对于当前驾驶决策产生较大影响的关键物体。环境描述共包括以下四个部分：天气、时间、道路类型、车道线状况。

区别于传统自动驾驶感知模块将所有待检测物体都检出，DriveVLM 专注于识别当前驾驶场景中最有可能影响自车驾驶决策的物体，称之为关键物体，因为全部都检出会消耗天量算力。得益于理想汽车累积的海量自动驾驶数据的预训练以及开源的大模型，VLM相较传统3D目标检测器能够更好的检出长尾的关键物体，比如路面杂物或者非常见动物等。

对于每个关键物体，DriveVLM会分别输出其语义类别c和对应的2D目标框b。预训练来自NLP大模型领域，因为NLP用的标注数据很少，很昂贵，预训练首先利用海量的未标注数据训练，找到语言结构特征，然后再利用prompt做标签，微调来解决具体的下游任务。

DriveVLM彻底放弃了BEVFormer这种传统算法做核心，只用多模态大模型。理想汽车DriveVLM使用阿里Qwen-VL大模型，参数量高达97亿，输入清晰度选择448*448这种最低清晰度，用英伟达Orin做推理运算。

理想汽车如何从高端智驾追随者成为领先者？

2023年初，理想汽车在NOA大战中还是一个落后者，但2023年开始全力投入高阶自动驾驶研发后，2024年经过多次NOA版本升级，到2024年11月底率先推出车位到车位全场景自动驾驶，从而成为高阶智驾（NOA）量产的领先者。

回顾理想汽车端到端智驾的发展历程，除了自身数十万用户提供的数据支持外，还与多家合作伙伴开展端到端模型的研发合作。DriveVLM就是理想汽车和清华大学合作推出的。

除了上面提到的DriveVLM，理想汽车还与上海期智研究院、复旦大学等推出STR2，与极佳科技、中国科学院自动化研究所等单位提出DriveDreamer4D，与清华大学合作推出MoE方案等。

MoE混合专家架构

为了解决大模型参数太多，计算量太大的弊病，理想汽车与清华大学合作，采用了MoE即混合专家架构。混合专家（Mixture of Experts，简称MoE）是一种集成学习方法，它通过将多个专业化的子模型（即“专家”）组合起来，形成一个整体模型。每一个“专家”都在其擅长的领域内做出贡献。而决定哪个“专家”参与解答特定问题的，是一个称为“门控网络”的机制。每个专家模型可以专注于解决特定的子问题，而整体模型则能够在复杂的任务中获得更好的性能。混合专家方法适用于处理大规模数据集，能够有效地应对数据量巨大和特征复杂的挑战。这是因为它可以并行处理不同的子任务，充分利用计算资源，提高模型的训练和推理效率。

混合专家MoE架构，图片来源：《Generalizing Motion Planners with Mixture of Experts for Autonomous Driving》

STR2路径规划方案

STR2是一种基于Vision Transformer（ViT）和混合专家（MoE）架构的运动规划方案，由理想汽车联合来自上海期智研究院、复旦大学等高校机构的研究人员共同开发。

STR2专为自动驾驶领域设计，以提升在复杂和少见交通情况下的泛化能力。
STR2 是一种先进运动规划器，它通过结合Vision Transformer（ViT）编码器和混合专家（MoE）因果变换器架构，实现了对复杂交通环境的深度学习和有效规划。
STR2的核心思路是利用MoE架构在训练过程中通过专家路由来解决模态崩溃和奖励平衡问题，从而提高模型在未知或少见情况下的泛化能力。

PDM-Hybrid 和 STR2 路径规划方案对比

图片来源：《Generalizing Motion Planners with Mixture of Experts for Autonomous Driving 》

DriveDreamer4D世界模型

2024年10月底，极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D。

DriveDreamer4D 利用世界模型作为数据引擎，基于真实世界的驾驶数据合成新轨迹视频（例如变道场景）。
同时，DriveDreamer4D 可以为驾驶场景提供丰富多样的视角（包括变道、加速和减速等）数据，以增加动态驾驶场景下的闭环仿真能力。
总体结构框如图所示，轨迹生成模块（NTGM）用于调整原始轨迹动作，如转向角度和速度，以生成新的轨迹。这些新轨迹为提取结构化信息（如车辆 3D 框和背景车道线细节）提供了全新的视角。
随后，基于世界模型的视频生成能力，并利用更新轨迹后得到的结构化信息作为控制条件，可以合成新轨迹的视频。最后，原始轨迹视频与新轨迹视频相结合，进行 4DGS 模型的优化。

基于视频的轨迹生成和 4D 重建系统，图片来源：《DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation》

-- END --

声明：内容源自佐思汽车研究，文中观点仅供分享交流，不代表本公众号立场，如涉及版权等问题，请您告知，将及时处理！

智驾最前沿

自动驾驶领域专业的技术、资讯分享平台。我们的slogan是：聚焦智能驾驶，紧盯行业前沿。

最新文章

鄂尔多斯车路云一体化取得新进展，蘑菇车联实时数据上车新突破

压垮汽车供应链的最后一根稻草是什么？

理想如何从智驾追随者成为领先者

新势力的繁荣与没落，从极越“原地散伙”看行业宿命

GAS 2025｜听见未来，AI+Audio，共启声学新篇章！

软件定义汽车是智能驾驶发展的关键推动力？

在不确定的时代，寻求确定的中国车企

岚图、蔚来、小鹏的汽车的最新EEA梳理

现在去造车，脑子进水了？

端到端自动驾驶技术研究与分析

国内首部智能座舱应用安全评价标准启动编制，诚邀相关企业、服务商及专业机构参编！

一文聊聊汽车SOA架构应用的现状、难点、价值

智能座舱与智能驾驶技术演进分析

欢迎加入！「智驾最前沿」知识星球资料目录（更新至2024年12月16日）

车载软件会主导自动驾驶汽车市场吗？

我们举办了一个自动驾驶论坛，邀请各位大佬现场聊聊

智驾与底盘争抢的车身控制，你真的了解吗？

浅析典型L3自动驾驶系统方案概念设计

马斯克、王传福鲶鱼效应再起

线控底盘如何让自动驾驶加速奔跑？

单片英伟达Thor座舱、智驾和泊车三合一方案浅析

什么是具身智能？自动驾驶是具身智能吗？

自动驾驶测试在设计环节中有何关键作用？

这么多车企，谁活不过明年？

如何打造自动驾驶系统？

四大协会齐发声，国产智驾芯片如何破局？

华为汽车产业链的技术解析与未来展望

激光雷达两大巨头三季报横评：专注出行与多面出击？

多传感器融合在自动驾驶中的应用趋势探究

一文聊聊自动驾驶测试技术的挑战与创新

一文聊聊智能网联汽车网络安全测试

特斯拉致命事故率高于其他所有品牌?

特斯拉端到端技术发展路线及其安全性风险分析

欢迎加入！「智驾最前沿」知识星球资料目录（更新至2024年11月28日）

现在的自动驾驶，我们应该聊哪些技术？

风雨飘摇中的哪吒汽车

爆火的端到端如何加速智驾落地？

智能驾驶加速软件定义汽车步伐？

小米SU7自动泊车失误？智驾功能真的绝对安全吗？

全面了解端到端自动驾驶的研发现状、挑战与策略应对

他们为什么会失败？落寞公司的内部员工复盘

自动驾驶中常提的SLAM到底是个啥？

何小鹏众筹，雷军断网，李想放PPT？

从车企实践看自动驾驶端到端解决方案

又两高管被查？东风公司通报

Robotaxi在中国将如何商业化？

小米SU7撞到护栏起火?官方回应

从小米HAD看端到端大模型技术的可行性与未来发展

小鹏汽车芯片成本分析与性能猜测

受贿3000万！知名车企原高管公审认罪？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉