理想汽车 One Model+VLM+重建-生成式世界模型7 月 5 日,理想汽车发布了基于端到端模型、VLM 视觉语言模型和重建-生成式世界模型的全新自动驾驶技术架构。导入·理论来源:诺贝尔获得者丹尼尔·卡尼曼在《思考,快与慢》中的快慢系统理论。
三个系统:车端双系统+云端的重建-生成式世界模型
系统 1:快系统,端到端模型(E2E) One-Model。依赖直觉和本能,高效应对驾驶车辆时 95% 的常规场景。由端到端模型实现,通过接收传感器输入,并直接输出行驶轨迹用于控制车辆。
系统 1 的三个进化阶段:NPN 架构 --> 分段式端到端(Two Models) --> 一体化端到端(One Model)。
One-Model 特点:① 全 AI 网络架构,高效传递信息;② 全 GPU 并行计算,高效计算;③ 全数据驱动,高效迭代。
端到端实车能力:① 通用障碍物的理解能力;② 超视距导航能力;③ 交通规则的理解能力等。
系统 2:慢系统,视觉语言模型(VLM)。
有意识的分析思考,解决驾驶车辆时 5% 的少见/复杂场景。由 VLM 视觉语言模型实现,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统 1。VLM 能力:① 复杂环境的理解能力;② 读懂导航地图的能力;③ 道路结构的理解能力;④ 拟人的规划博弈能力等。系统 1 和系统 2 两个系统相辅相成,是人类认知和理解世界并做出决策的基础。系统 1 和系统 2 两个系统构成的自动驾驶能力将在云端利用世界模型进行训练和验证。结合重建仿真和生成仿真两种技术路径,不断积累真题库,并举一反三生成练习新的题目,相当于做了重建的真题和生成的模拟题。总的来说:理想的技术架构是车端双系统+云端的重建-生成式世界模型,One-Model 负责学习老司机的驾驶行为,VLM 负责学习人类思考逻辑,重建-生成式世界模型则是负责维护考题库、出考题。据理想智能驾驶负责人郎咸朋透露,其端到端方案从去年下半年就在内部孵化并启动预研,目前已经完成了模型的原型验证和实车的部署。
地平线早在 2016 年便提出了自动驾驶端到端的演进理念,并持续取得技术创新与突破:在 2022 年提出行业领先的自动驾驶感知端到端算法 Sparse4D;2023年,由地平线学者一作的业界首个公开发表的端到端自动驾驶大模型 UniAD,荣获 CVPR 2023 最佳论文。同时,地平线积累了基于交互博弈的端到端深度学习算法,大幅提升智驾系统在复杂交通环境中的通行效率和成功率。在硬件技术上,地平线专为大参数 Transformer 而生的新一代智能计算架构 BPU 纳什,能够以高度的软硬协同打造业界领先的计算效率,加速端到端和交互博弈算法的应用普及。
在 2024 年 4 月 24 日的地平线智驾科技产品发布会上,重磅发布了新一代车载智能计算方案征程®6 系列以及面向下一代端到端需求算法的 Horizon SuperDrive™ 全场景智能驾驶解决方案,全面开启智能驾驶的范式级创新,加速智驾平权时代的到来。
图 地平线新一代车载智能计算方案征程®6 系列以及面向下一代端到端需求算法的 Horizon SuperDrive™ 全场景智能驾驶解决方案Sparse4D 是迈向长时序稀疏化 3D 目标检测的系列算法,属于时序多视角融合感知技术的范畴。该算法已于 24 年 1 月 22 日正式开源,已在 GitHub 平台上线,开发者可关注地平线 GitHub 官方账号 “ Horizon Robotics ” 获取源码。面向稀疏化感知的行业发展趋势,Sparse4D 搭建了纯稀疏的融合感知框架,让感知算法效率更高、精度更高,让感知系统更简洁。相比稠密 BEV 算法,Sparse4D 降低了计算复杂度,打破了算力对感知范围的限制,在感知效果和推理速度上,都实现了对稠密 BEV 算法的超越。在 nuScenes 纯视觉 3D 检测和 3D 跟踪两个榜单上,Sparse4D 均位列第一,成为 SOTA,领先于包括 SOLOFusion、 BEVFormer v2 和 StreamPETR 在内的一众最新方法。基于地平线业务数据, Sparse4D 已完成性能验证,在地平线征程 5 计算方案上实现了部署。根据规划, Sparse4D 将应用于地平线下一代产品中。UniAD 模型:以规划为导向,可以理解为:最终车的轨迹规划是结合了车身轨迹,运动特征,地图语义特征,空间占用特征等作出的综合决策。SuperDrive,聚焦拟人化体验突破,打造好用的智驾系统2.0。凭借动态、静态、OCC(Occupancy占用网络)三网合一的端到端感知架构,数据驱动的交互式博弈算法,SuperDrive 在任何道路环境下都能兼顾场景通过率、通行效率和行为拟人,在拥堵汇流、路口交互-动态 Driveline、礼让骑行人、拥堵换道、城市环岛通行等城区复杂场景下,均能够为用户带来优雅不怂、从容笃定的智能驾驶体验。动态、静态、Occupancy 三网合一的感知端到端架构是精准还原客观物理世界的有效手段。在此架构下遮挡准召率提升 70%,动态代码行数降低 90%,网络负载降低 50%,有效解决当前行业感知架构时延高、规则多、负载重的问题。数据驱动的交互博弈可带来更拟人的最优解,使得 SuperDrive 像老司机一样灵活处理复杂交通流,在拥堵场景下变道成功率提升 50%,路口通过率提升 67%。另外,发布会上,地平线官宣征程 6 系列的 10 家首批量产合作车企及品牌,以及多家 Tier1、软硬件合作伙伴。征程 6 系列将于 2024 年内开启首个前装量产车型交付,并预计于 2025 年实现超 10 款车型量产交付。同时,SuperDrive 将于 2024 年第二季度与多家顶级 Tier1 和汽车品牌达成合作,将于第四季度推出标准版量产方案,并将于 2025 年第三季度实现首款量产合作车型交付。DeepRoute IO,是元戎启行为量产推出的新一代高阶智驾平台,搭载导航地图,应用端到端模型。在导航地图覆盖范围内,IO 平台及时、准确、稳定地识别红绿灯、施工场景、缓慢行驶或临停车辆,实现在城区点到点的智能驾驶,任何场景都好开。尤其是在长尾场景的处理上,IO 平台有着极佳的表现。复杂路况下,元戎启行 IO 平台的路口通行成功率近 98%,特殊路口转向成功率近 90%。开得好开得稳的前提是安全,IO 平台感知范围达 200 米,可准确识别 30cm * 30cm(如篮球大小)的障碍物,全场景把握路况。IO 平台还设有完善的安全兜底策略,保证驾驶安全。例如将要发生碰撞时,系统会启动安全模型,车辆迅速进入保守策略,避免出现安全事故。安全的智能驾驶系统,才能让人开得安心、坐得舒心。同时,IO 平台充分考虑用户驾驶习惯,应用了端到端模型,是驾驶工具,更是拥有高智能的驾驶伙伴。例如在窄道路红绿灯路口时,运用传统智驾解决方案的车辆需要与前车保持2米左右的物理安全距离,即便后面有车也不会挪动。而 IO 平台注意到后方红车想往右转时,车辆往前移动给后车留下了一定的通行空间,更能理解真实世界,犹如人类司机。在 24 年北京车展上,元戎启行还展出了首款基于 DeepRoute IO 的解决方案。方案采用 NVIDIA DRIVE Orin 系统级芯片,200+TOPS 算力,1 颗固态激光激光雷达,11 颗摄像头,行泊一体,基于导航地图,可实现全域、全时、全场景的智慧领航辅助驾驶功能,具有极佳的综合性能,行车丝滑、流畅。基于此方案,元戎启行已与国内某头部车企展开量产合作,数款合作车型将于 2024 年陆续推向消费者市场。元戎启行 CEO 周光表示:“ DeepRoute IO 平台不依赖高精度地图,应用端到端模型,具有极佳的综合性能以及更强的长尾场景处理能力。目前,IO 平台已在城市线级不同的多个城市进行泛化测试,这些等级不同的城市人口均超千万,道路情况极具代表性。IO 平台推向消费者市场后,所到之处都能开,任何场景都好开。”自动驾驶之星和生成式AI与具身智能知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区,欢迎大家添加小助手加入我们的交流群里,这里有一批奋斗在量产第一线的小伙伴等你的加入!👇点个“赞”和“在看”吧