刚刚结束的2024重庆汽车论坛上,理想汽车创始人李想又丢出了2个重磅观点,基于现有技术和硬件:
1、L3会在今年内实现;
2、L4将在3年内实现。
值得注意的是,李想在演讲上强调,本次的讨论聚焦在自动驾驶,而不是智能驾驶。
无独有偶,前不久工信部连续颁发多家L3级自动驾驶上路牌照,似乎自动驾驶与我们已近在咫尺了。
之前工信部也曾颁发过一批L3级自动驾驶牌照,但获得牌照的车企仅限于测试,而这次进入试点名单意味着在通过测试后可以开发可量产的产品。这意味着,政策上已经为L3上路提前扫清了障碍。
这时候再来看李想的判断,年内实现L3自动驾驶靠不靠谱。
其实大家都知道,现阶段自动驾驶已经能够很好的处理99%的场景,只有1%的corner case场景不能解决。系统需要不断地去学习训练,但是长尾场景永远无法穷尽,所以导致的一个结果就是corner case越学越多。而且理想提出了一个悖论性的问题,解决corner case的人越多,corner case就越多。如果不能有效解决这个问题,人类距离真正的自动驾驶就会越来越远。
李想提出了一个思考:人类开车为什么不需要学习corner case?
《思考快与慢》里提到一个观点,人类的大脑存在2个系统,系统1依靠惯性思维决策,系统2是快速决策机制。在人类驾驶过程中,大脑系统1和2的工作分工如下。
大部分场景下,人类大脑都依靠惯性处理信息,我们甚至可以一边开车一边想别的事情,也就是所谓的系统1;而在一些复杂的十字路口,需要逻辑推演能力的地方,也就是所谓的corner case场景,系统2才会接入;
我们日常驾驶中,基本上95%的时间使用系统1,5%的时间使用系统2。因为碰到corner case的场景属于少数,比如马路上突然窜出来一只猴。
那么问题来了,自动驾驶是不是可以像人一样构建一套这样的双系统?
李想给出的答案是可以。他认为,自动驾驶的系统1是端到端。它直接输入感知,输出结果,没有那么多的中间过程,完全摒弃了过去感知、规划,决策,执行每个模块彼此割裂的模式。属于人类大脑95%场景下的算力运转阶段。
但端到端有3点挑战:支持端到端数据训练的人才;高质量的数据;足够多的算力。
过去一段时间,理想放了100万的clips用于端到端的训练。每个月10轮左右的训练就可以完成一个无图NOA的能力上限水平。
但李想认为,中国路况非常复杂,仅做端到端远远不够。还需要参考人脑的系统2来解决corner case。
针对系统2,理想提出了VLM,视觉语言模型。它能像人一样读懂导航地图的横向纵向速度、时间、红绿灯等各种信息,让系统彻底告别高精地图。解决各种corner case问题,为端到端方案兜底。
理想目前已经通过2颗英伟达Orin-X芯片完成了这样的双系统运行,一颗用来跑端到端,一颗用来运行压缩到20亿规模的VLM模型。
按照计划,理想会在最早今年底,最晚明年上半年向用户批量交付有监督的自动驾驶系统,也就是以上提到的双系统,李想将其定义为L3。
但这样的双系统上车之前需要先解决一个问题,如何验证它们的能力?
理想给出的解决办法是,通过Transformer构建一个实体模型,然后让车辆在里面考试,这个灵感来源于sora。
这样,一套完整的模拟人类思考行为的智驾系统就搭建完成了,端到端来承载人类系统1的作用,解决大部分的惯性场景;VLM来承担系统2的作用,解决兜底和泛化的corner case场景。
值得注意的是,李想的这一套系统并不仅限于理论层面,官方的说法是已经通过了相关的测试验证,并且会在今年三季度,向用户推送无图NOA的同时,也会向前期的测试用户推送这样一套自动驾驶系统。
目前这套系统仅有300万clips的训练数据,数据量还远远不够。最早今年底,最晚明年初,这套系统的训练数据量会提升至1000万clips。
李想认为,在现有平台上,带有监督的L3级自动驾驶100%可以实现。随着算力增强和模型加大,无监督的L4自动驾驶会在3年内实现。
行文到这里相信大部分人都看懂了。就是典型人脑双系统运行逻辑。这里说一句题外话,大部分人能听懂可能并不是我们有多牛,而是李想比较牛。大家肯定肯定过无数次技术论坛,但是能听懂的有几回。想想雷布斯是如何把复杂的东西“翻译”成“人话”的;另外一个就是李想演讲全程脱稿,首先是要足够懂,肚子里有货,其次是逻辑能力要足够强,什么时候该说什么,逻辑顺序怎么自洽。
言归正传,回到正题,理想这次的新技术怎么样,我们来系统性盘一盘。
按照李想的说法,这个事情其实开始了很久,去年9月就专门成立了团队来研究,和清华大学赵行团队一起研究。今年4月的英伟达GTC开发者大会上,理想智能驾驶负责人贾鹏就对这个问题有过系统性阐述。
端到端本身就是大模型,李想提出的双系统理论可以理解成把驾驶场景分成了2种类型,然后分别设置了两种不同的模型来处理这些场景。这个逻辑说得通。你也可以把车内场景分成无数个类型,每一个类型通过一种AI模型来处理。但重要的是能不能足够高效解决问题。
下面我们通过问答的方式来梳理一下几个核心问题:
一、快慢系统是如何工作的?
快慢两套系统分别以10Hz和2Hz(都是大概的范围值)的速度同时跑,快系统(系统1,端到端)处理大部分常规场景,慢系统(系统2,视觉语言模型)兜底,如果碰到异常情况,慢系统会介入,甚至改变快系统决策。比如路面突然看到折断的树枝,快系统规划出来的轨迹是执行,慢系统认为应该绕行,那么车辆就会执行慢系统的决策进行绕行。
二、不需要数据驱动是不是意味着数据失效了?
相信很多人都注意到了,李想说视觉语言模型不需要数据驱动。这好像是个悖论的问题,大家都知道数据需要提前预埋各种触发机制来收集数据。按照李想的设想,系统2(也就是VLM模型)可以像人类司机一样,不学习corner case场景也能处理突发状况。那车企的数据是不是就没有意义了,也不需要在车内提前设置各种触发机制。但李想又多次强调双系统用了大量数据来训练。
贾鹏对此给出了解释,数据驱动无法实现L4,而需要依靠一种新的范式来完成,理想将其称之为知识驱动,要让系统从学习场景到理解场景。
并不是数据无用,整个智驾系统还是需要数据来驱动并且自成长。我的理解是慢系统的数据需求不需要无穷无尽的长尾场景,并且系统可以通过举一反三的方式自己生成一些数据来训练慢系统。
三、目前理想汽车双系统进行到哪一步了?
在端到端方面,理想目前规划了3个模块,第一个是BEV感知模型,这个模块承担的作用是静态、动态、通用障碍物的检测;第2个是预测、决策和规划,统一放在一个模块里;第3个就是红绿灯模块。以前整个行业的做法是先把红绿灯检测出来,然后跟车道做关联匹配以确定本车道的红绿灯状态,就是所谓的“绑路”。现在理想把 Temporal Planner通过一个端到端模型来完成,信号输入传感器,直接输出当前车道的红绿灯状态或者意图。
根据计划,理想会在今年内把第1和第2个模块合并成一个,也就是感知和规划的部分统一成一个模型。
在VLM方面,理想已经在车端和云端分别部署了一套系统模型,但是二者的大小不一样。车端肯定是经过压缩的。
除了车端的快慢系统,还需要云端的世界模型去与车端去做交互训练和验证。理想的灵感来源于SORA却不局限于SORA。
四、基于端到端,理想有哪些落地的产品体现?
主要是4个点:
第一个就是全场景的NOA,包括高速和城区,红绿灯路口的启停和左右转,施工道路避让,静止或者违章车绕行。
第二个是LCC可以做到红绿灯启停,直行车道上自动超车变道,同时也可以实现施工路段以及这个违章车的绕行避让。
第三个,增加了长距离AVP泊车。人下车,车辆自动泊入你的停车位,中间可能经历与他车的博弈,或者超窄车道的倒车避让等都能完成。
最后一个是AEB上限能力提升。120km/h刹停,两轮车或者三轮车100km/h的刹停,误触发里程提升至30万公里以上。
去年理想给20万用户推送了城市NOA,大概去年年底是110城,现在已经做到114城。今年的目标是做到全国。
注意,以上能力是理想去年底基于端到端推送的AD Max3.0系统,并不是最新的双系统,双系统会在今年底或者明年上半年向先期用户推送。
五、快慢系统之间如何实现数据串联?
按照理想的设想,慢系统需要主动甄别一些场景并且输送给快系统,并且也需要从快系统里调用一些数据帮助决策。二者属于并行计算,彼此之间的数据需要相互串联。理想做了一个数据闭环系统,从case的数据收集、自动挖掘、自动标注、自动训练,然后以及新的模型推到车端去做影子模式的验证,跑通了全流程的闭环体系。
六、如何做corner case场景的数据挖掘?
理想做了一个叫做BEV-CLIP多模态的数据检索引擎。通过大语言模型能力,同时加入了自动驾驶的一些先验知识训练这个引擎,并且完成一些复杂场景的自动检索,把这个场景以文字的方式描述出来以快速找到这个场景。
这个不算什么新技术,之前毫末也有提到过。到这里其实都没有太大的难度,属于行业已经解决的问题。
七、各款车型之间数据如何复用?
主机厂包含了多个平台多款车型,如何保证各个车型之间的数据的复用和适配也是个很大的难点。
理想在英伟达的NeRF引擎之上,开发了一套数据复用的开关,某款车型的数据通过重建和动态编辑之后就可以形成新的场景,然后从通过新的Novelview projection投影到新的视角上,比如L9的数据投影到Mega的传感器上,这样就形成了新的标注数据。目前理想汽车全场景的数据大概是5亿公里左右,特斯拉是10亿英里,注意单位不一样。
这里还有一个问题理想没说,不同计算平台的数据如何共享,理想目前的车型其实是用了两套系统,Pro和max版本不一样。Pro版本用的地平线计算平台。我的理解是两套平台的数据理论上通过技术手段应该是可以共享,但可能会比较费事一些。或者在一个可见的长周期内,理想都会采取双计算平台和双智驾系统的策略。
逻辑上来说,这套双系统理论能够自洽。但是问题在于,现阶段慢系统依然只是辅助,是否真的能够处理无穷无尽的长尾问题还有待验证。而且可以肯定的一点是,模型的大小和数据量还远远不够,还需要继续加大,从理想2025年上车英伟达2000TOPS的Drive Thor也能看出来。
最后我们来讨论最开始的问题,理想的这套双系统到底是不是自动驾驶的终局?
至少在理想的理解里,未来3年可见的时间都会坚持通过双系统去实现L4,而且将来还会把两个系统合二为一。
这套系统到底算不算自动驾驶的最优解,我觉得不好讲这个话,至少给行业提供了一种新的解题思路。如果把这套系统的能力上限按照100分来算,从理想的描述,我觉得目前可能还处于20-30分的阶段,今年底把感知和规划两个大模型统一,明年能够把红绿灯识别再统一,可能会突破50分,最后端到端和VLM合并为一个大模型至少要占到50分以上的工作量。期待理想双系统的实车表现。