11月,理想向32万AD MAX车主全量推送基于「端到端+VLM」技术架构的智驾能力,所有AD MAX车主终于可以开始享受「车位到车位」完整的智驾体验。
1、什么是端到端+VLM?
2、它比之前的智驾多了哪些功能?
3、理想这套「端到端+VLM」表现究竟怎么样?
下面,我通过在「2024理想汽车端到端智能驾驶体验日」的感受,为大家解答一下上面这三个问题。
什么是「端到端+VLM」?
首先,什么是「端到端+VLM」?
在端到端之前,过去大家的智驾算法都是走「多步骤规则式」路线。
首先由感知系统去识别路况,规划系统根据感知信息去计算出一条行驶路线,最后由控制系统去执行这条路线,决策什么时候加速减速什么时候转向,每个系统都是相对独立,需要按照感知→规划→控制来按序就班地工作。
由于每一个步骤都需要计算时间,系统的整体响应会偏慢,所以我们在开启智驾后总觉得智驾不够聪明不够拟人,该走时不走,不该走时犹犹豫豫在疯狂试探,有时候刹车过晚造成恐慌、刹完该走的时候还楞在原地。
端到端相当于将上述一系列过程交给「一个系统」处理,由系统接收所有的传感器数据,直接输出行驶路径。有点像人的「本能反应」,就像我们经常开车时一直和副驾聊天,聊着聊着突然发现哎~目的地到了!我只记得路上聊了什么,但完全想不起我是怎么开过来的,这种就是靠着人的本能反应来完成驾驶任务,理想说「端到端」能解决95%的驾驶场景。
问题来了,听上去,端到端好像很简单就完成了大部分日常驾驶场景,那么遇到一些复杂路况、需要思考的路况怎么办呢?理想说,没关系,我还有「VLM视觉语言大模型系统」,你可以认为它是一套有思考分析能力的系统,用来解决剩下5%的驾驶场景下。
通过车上的摄像头来读取真实世界的文字信息,再结合导航地图信息的文字来进行文字编码,结果就是它能深刻理解物理世界的复杂交通环境和中文语义,来判断当下的行驶环境和规则。例如我们在碰见公交车道时,我们的视觉会接受到公交车道的黄色车道线、公交车道的限行时间也就是规则,我们的大脑会马上判断现在是不是公交车道的限行时间、我们需不需要马上驶离公交车道,理想的VLM系统就能为我们完成上述的思考,帮端到端做出更深一层的判断。
总结来说,端到端不依赖规则式逻辑,具备更拟人化的老司机驾驶风格,能整体大幅度提升安全、舒适、通行效率和博弈能力;VLM 辅助端到端解决一些需要思考的现实世界驾驶增量规则的难题,例如我刚刚说的判断公交车道、判断潮汐车道、判断可变车道现在是直行还是左转、高速ETC那条队排队车辆少等等。
比老版本多了哪些场景功能?
除了图上理想智驾上一个版本已经攻克的场景外,「端到端+VLM」的加入增加了4个场景:
- 高速收费站ETC
- 闸机识别抬杆
- 园区道路通行
- 小区道路通行
基本做到了全场景100%的覆盖。
「端到端+VLM」的加入提升了更多复杂U 型掉头场景的解决能力,还包括进/出环岛的博弈能力。
车位内P挡直接激活起步、闸机识别及启停和高速ETC驶入/驶出的通行能力也让理想真正实现衔接城区和高速的「车位到车位」全程无断点的智驾能力。
真实表现究竟怎样?
最后,聊聊理想这套「端到端+VLM」真实表现究竟怎么样?
「理想汽车端到端智能驾驶体验日」广州站为我们安排了一条近40公里、行程将近1小时20分钟的路程,路况基本涵盖了城区复杂路段、高速以及乡间道路,过程经历了自动响应抬杆、U形掉头、超视距左转、坑洼路面、潮汐可变车道、环岛、高速ETC通行、行人/小车避让等场景。
从车位到车位,全程3次接管。
先说好的部分:所有遇到的场景基本都过了,包括U形掉头、复杂环岛、高速ETC通行、避让行人,所有动作都表现丝滑,它对于时机和速度的控制变得更加精准,整体驾驶感受比老版本可以说更醒目了,整体上限非常高。
再说感受不好的部分:全程3次接管,每次接管都有点危险,当然也不排除理想端到端能力边界的上限是超出我自身驾驶习惯对危险预警的提前量,可能每次理想智驾判断车与车或者车与人之间还有足够的安全余量,但我大脑下意识反映危险,需要马上主动接管。
其次就是高速经常性靠右跟大车走的习惯,通行效率不高,这点我觉得理想在下一个版本可以再优化优化。
最后就是遇到电瓶车不敢绕行,不知道是版本的问题还是其他因素触发保守行为,当然也是个好习惯,毕竟安全第一。
总的来说,我给这套「端到端+VLM」真实体验会打一个比较高的分,但记住现阶段依然是智能辅助驾驶,人还是驾驶的主体,还不是全自动驾驶。
端到端负责驾驶,VLM替你思考,而你只需简单地指引方向。
欢 迎 加 入
车主星球基友一大群
表面上,这里分享汽车资讯、购车建议、用车经验,聊的是Dream Car;
私底下,我们走心唠嗑、吹牛打屁、插科打诨,谈的是感情~