邮箱|wf@pingwest.com
特斯拉CEO埃隆马斯克在2023年发起了一场特斯拉智能驾驶软件FSD V12的直播活动——视频中的这辆特斯拉基于最新的端到端技术,软件删除了大量的工程师规则代码,转而采用主神经网络算法。车辆基于自主视觉和神经网络来指示车辆在何处减速,识别交通信号灯,以及道路上任何参与者,并进行自主决策。
这一技术随后引发了从行业内到科技爱好者,甚至是汽车普通消费者极大的讨论和兴趣。
这是智能驾驶新一轮的范式复苏。直到今天,中国市场上仍然涌现着众多观点:
端到端技术的出现,拉平了很多做智驾的汽车公司的起跑线,大家又重新站在一个起点,开启了一场数据和算力的长跑。
端到端技术受到强数据的影响,模型的搭建和数据的获取数量,尤其是有效质量的数据获取,影响着技术的快速迭代。
在中国市场,拥有着“主场优势”的自主汽车厂商开启了又一场智驾的长跑,同时认为特斯拉FSD领先优势会在这个阶段被抹平的观点不在少数。
理想汽车智能驾驶研发副总裁郎咸朋博士也认为,从技术架构上,理想最新的方案和特斯拉没有太大差别,甚至更领先一点。因为理想有VLM模型,有系统2,特斯拉只是有系统1的端到端。
理想汽车的端到端模型是One Model一体化端到端,与市面上其他汽车企业的端到端有些许不同。
常规的端到端技术,是只用人工智能模型,机械自学习的方式,去替代智能驾驶过程中的感知、规划控制等模块,从视觉的“输入”端,到智能驾驶系统最后控制车辆自行驶“输出”端,都完全由模型来处理。一个纯“端到端”的技术在这个过程不再设置规则式代码,成为一个完全的黑盒。
但市面上的很多汽车企业的端到端,包括特斯拉、华为和小鹏等走得相对靠前的厂商,仍然会设置一定的底层负责安全冗余的算法。感知、规划控制可能会是相对独立的模块,接口仍然需要被人工定义,和连接。
One Model一体化的端到端意在把感知、规划控制模块放在一起,在理想的内部被称为系统1,更像是一个司机,快速地执行端到端的决策。
过去,端到端在智能驾驶领域的应用,经常会遇到上限高,但下限也低的问题。比如业界领军企业特斯拉在美国加州的测试非常的丝滑,表现得已经很像一个人类司机,但一旦进入到不太熟悉的地区,会出现难以解释的规控决策。
这是端到端的弊端之一。
理想的做法是引入系统2——VLM视觉语言模型,再往前迈一步。
按照理想的说法,VLM视觉语言模型是世界上第一个成功部署在车端芯片的大模型,具备应对复杂场景的逻辑思考及决策能力。
除了One Model端到端之外,系统2——VLM是作为辅助系统1进行规划决策的另外一套模型算法。基于VLM的系统2能够提供复杂环境的理解能力、读懂导航地图的能力以及交通规则的理解能力。
郎咸朋给这套组合一个更通俗的解释:系统1就像是司机,而系统2是一个驾校教练。系统1完全靠自己的视觉感知,执行操作,系统2需要长期积累知识给系统1提醒和告知。
理想汽车智能驾驶高级算法专家詹锟,他的团队率先提出了这个概念。仿照认知心理学家、诺贝尔奖得主丹尼尔·卡尼曼——其认为,人脑就带有这样的两个系统,第一个系统基于经验和直觉,第二个系统会综合学习积累的逻辑推理能力。
两个系统为整个理想的智能驾驶服务,这也让理想的智能驾驶方案完全不同于其他车企。
在美国市场,特斯拉FSD在算力上和数据上都是领先者。
但在中国市场,理想的策略似乎是在复刻一条“中国特斯拉智驾之路”,使得自己的身位更靠前一点。
郎咸朋称,“在中国的训练算力和训练数据上,我们认为至少从现在看我们是领先于特斯拉的,因为特斯拉不管是数据的合规性,还是受到中国的一些约束,以及训练算力的部署,在中国还需要搭建。”
理想在数据测试流程上,也引入了一套世界模型的体系。
理想称,世界模型支撑了全新一代理想智能驾驶大范围、高速迭代,提供了自动化的AI能力评价体系,通过重建技术将用户遇到的问题场景变成“错题集”,通过生成技术将用户的真实驾驶场景举一反三为“模拟题”,两个技术确保了在模型评价时错题不再做错,同时兼具优秀的泛化能力。
基于理想One Model+VLM+世界模型的技术方案,这也让全新一代的理想智能驾驶产品迈入了“有监督的自动驾驶”新阶段。
理想是第一家将VLM部署到Orin-X芯片的企业,也是第一个迈出双系统架构的车企。在中国,理想已经拥有接近百万级的销量规模,这势必会提升有效数据的占比。理想汽车目前累积的训练里程已超过22亿公里,预计到2024年底将超过30亿公里,理想汽车当前训练算力达到5.39EFLOPS,预计到2024年底将超过8EFLOPS。
但业界对于端到端技术的应用和前景仍然是争吵不休——有人认为没有500亿做不了智驾,有人认为至少在未来几年内,基于规则的模型算法和单一模块功能的端到端仍然会并行,纯端到端仍然是扯淡。
一定程度上,理想用户体验团的测试效果验证了这条路目前的合理性。无论如何,理想汽车率先迈出了这一步。
以下是和理想汽车智能驾驶研发副总裁郎咸朋博士、理想汽车智能驾驶高级算法专家詹锟的交流速记,对话经过不修改原意的编辑:
提问:市面上大家都说自己是端到端,什么才是真正的端到端?
詹锟:端到端是一种研发的范式,顾名思义,它是指做一个任务,从最开始的输入端到最后的输出端,中间没有其他的过程,用一个模型完整从输入到输出,这是端到端的本质含义,只要满足这个含义的,我们都可以称之为端到端。
现在理想汽车是一体化One Model端到端,通过直接传感器输入,模型推理完毕后直接给到轨迹规划用来控车,这就是一体化端到端,中间没有其他步骤。还有一种端到端的方法,是在中间分两个模型,模型中间以一个信号做桥接,输入是一个感知的模型,把感知结果再输入归控模型,合在一起成为一个模块化的端到端,这或许也能称为一种端到端,但是我们认为这样的端到端并不是真正的端到端。理想汽车的端到端本身想解决中间信息的损失,如果中间加了人为的信息消化过程,可能效率不是那么高或能力上限受到约束,所以我们认为一体化的端到端是更本质的端到端。
提问:我们是不是受到特斯拉的启发,相比于传统的模块端到端有没有什么区别?
詹锟:特斯拉的确在2023年初就提到了端到端,也是马斯克在推特上说它体现了一个完整的从输入到输出直接控车的模型。大家看到这个消息后也很震惊,因为这个东西并不是他们刚提出来,在2016年的时候英伟达就有一个模型提到了端到端,也发表了一篇论文,但效果一般,只解决了特别简单的场景,以当时的算力和模型规模下,大家认为这条路是行不通的。
到2023年,在新的transformer的架构上增加了超大算力,特斯拉做出来之后,又可能出现一个新的范式的复苏。端到端不是特斯拉第一个提出来的,但在往更有成长的方向上推进。我们看到以后,内部也在思考,端到端相比于以前模块化的模型,更本质的方法是减少了各种信息的冗余。在无图上,我们接近于模块化的端到端,我们有感知大模型,其实就是一种模块化的端到端模型。即使这样,我们发现端到端的模型还是需要规则,还是有分模块的数据和分模块的策略任务。
我们这次在新的方案讨论和构思上,提出端到端一定要更彻底、更本质。理想汽车有非常丰富的数据,我们相信这些数据是能够支持我们做好的,这是我们的优势。所以我们选择了挑战更大、更困难的端到端一体化架构,它的上限很高,但缺点是训练比分模块的要难,包括数据配比和训练方法有很多的know-how需要去探索和挖掘,但我们还是毅然决然地选择了难而正确的道路。
提问:现在很多品牌提出自己是引领者,理想汽车也在说已经跻身智能驾驶第一梯队,怎样评价市面上这些企业的端到端的技术水平?
郎咸朋:从技术方面来看,对于普通消费者来说,他们并不关注是有图还是无图,端到端还是非端到端,大家最终关注的是产品和使用的体验,是产品价值。所以,我们不是要和谁比,而是希望能够为我们的用户提供更好的产品和服务。之前配合高精地图的高速NOA,高速NOA的体验达到了用户的使用需求。接下来,我们在做城市NOA的过程中尝试了很多种方式,其中一个很简单的思路是用有图的方式做城市NOA,但是发现并没有一个图商能够提供城市的高精地图,只能提供轻图。但我们认为轻图不行,因为一旦需要迭代图,就会出现时效性和是否能够真正使用的问题。我们不能够让用户感受到某个地方今天能用但明天就无法使用。
最后,我们决定就做无图。以前的无图方案还是感知、规划、分模块的方案,里面有大量的人工规则和实车测试,先不说预算投入方面,时间上就非常困难。当模型迭代出来,如果想将一年四季的各种情况都跑一遍,没有一两年时间是不可能实现的,而且用户也不可能等那么久。所以我们又迭代到端到端+VLM技术架构,我觉得这个技术方案,本质上是人工智能方案,它不是设计出来的,而是自己成长出来的。
另外,今天我向大家介绍了世界模型的内容。这个能力在我看来,是实现自动驾驶快速迭代的最重要的且最必要的保证。一个模型迭代,如果用传统的方式需要用大量的车、人、时间做测试,但是现在使用生成和重建技术,将以前出现问题的场景收集回来,自己组建错题场景库。就是每次发布之前,单纯的错题就做了一千多万公里的测试,而且这是有效的错题集,不是随便乱跑的路试。除此之外,我们还可以生成场景、模拟场景,这也是几千万个场景测试。现在用这种方式进行模型迭代比原来整车或者路试的方式要可靠得多,而且一年四季各种场景全都可以涵盖。这是我们的做法,其他友商品牌是不是这么做的,我们并不知道,但是我们完全是根据用户需求出发。我们迭代技术,不是为了技术而技术,而是这个技术确实能解决用户的需求,能带来更好的产品体验,那么我们就做这个事情。
提问:前不久有人提出“没有500亿做不好智驾”的观点,您对此有什么看法?
郎咸朋:关于500亿,需要判断是一次性投资还是长期投资,就像今天提到的我们每年都会有10亿美金投资在智驾研发中,如果连续10年的话是超过500亿的。
端到端+VLM的技术架构是一个分水岭。之前我们还是在用传统方式做自动驾驶,从这一代开始,才是真正用人工智能的方式做自动驾驶。接下来做自动驾驶的研发,核心竞争就是是否有更多更好的数据和与之配套的算力去训练模型。而算力和数据的获取,需要看花多少钱、投入多少资源去做。而这其中有些东西是用钱买不到的,比如训练数据,训练里程,各家车企有自己的数据,相互之间并不会互通共享。
另一个需要投资的是算力,我们现在5.39亿EFLOPS的算力,到今年年底预计8亿EFLOPS,这已经不是10亿人民币,而是20亿人民币的花销,一年就要消耗20亿人民币。未来进入到L4阶段,每年数据的增长和算力的增长,都是呈指数级的增长,这也就意味着每年至少需要10亿美金(六、七十亿人民币)。而5年之后,它需要持续迭代,在这样的量级下,一家企业的盈利和利润不能支撑投入的话是很困难的。所以,现在并不需要关注投入多少亿做自动驾驶,而是从本质上出发,是否有充分的算力和数据支持,再看看需要投入多少钱。
提问:如何保证在数据量不是十分大的时候模型的安全性,从概念上看,我们现在是不是同样属于一种“Two-Models”?
郎咸朋:“安全性”是一个备受关注的问题,是否存在配合的问题,有没有独立的安全模块等等。大家之所以有这些问题,还是因为大家站在过去的非AI自动驾驶研发角度在思考。比如我以前是骑马的,他会问我汽车上有马鞍吗?是因为大家还没有真正理解什么是AI的做法,什么是非AI的做法,这是第一点。
第二,现在很多人都说自己是端到端模型,但是真正的做端到端,还是要看两个能力:有没有足够多的数据和有没有充足的算力。否则,我觉得很难做出真正的端到端来,因为端到端是AI的做法。
第三,端到端能力的上限和下限都很高。我类比一下,在CNN(深度神经网络模型)出来之前大家还在用传统的机器学习的方法做一些工作,比如我们熟知的图像分类任务,当时SVM类算法遇到了瓶颈,但是CNN一出来就碾压了他们10%+的提升。我想表达的是,大家还没有真正理解到端到端的能力,我们不会贸然的推给内测用户。
在我们使用非AI方式的时候,在纵向控制这一个细节上我们要考虑到非常多的场景,这样在做场景规则设计的时候要设置非常多的条件,规定在某种条件下需要采取怎样的策略。但是当我们第一个版本的端到端模型训练出来的时候,我发现它在每一个路口或者需要纵向控制的条件下都会非常舒适。我们并没有针对特殊情况进行调试,是模型自己训练出来的能力。能够发现,我们在做规则的时候有很大的问题,因为场景过于多样化,我们不可能针对所有的场景进行规则的设定。但是我们用AI的方式做端到端模型的时候就会发现它有这种魔力,我们把数据给它,它就能真正学习到这些人开车的经验,不仅能学到上限,也能够大幅度的提升下限。虽然它依然有自己的局限性问题,但是我们解决他的方式不再是设定规则,而是给它更多更优秀的数据。
同样我们也有兜底的策略,在控制模块上。因为我们端到端是传感器输入到轨迹输出,轨迹输出后给到转向、制动模块,在这个地方我们是有安全兜底策略的,比如它打算去进行急转弯180°的专项,我们会对他进行约束,但是这种类似的规则非常非常少,相比于之前的做法可以忽略不计。
同时,我们提升了安全的底线和能力上限,我们的做法是不断给它优质的数据,它一定会学到很多安全的驾驶习惯。
提问:怎么保证给到端到端+VLM数据是干净的?
詹锟:无论做端到端还是VLM,数据都是最重要的,大模型一直在强调高质量数据。所以我们的第一步就是数据来源的清洗。我们对驾驶数据的选择是非常严格的,我们对每个车主都有一个内部的打分,包含各个维度,并且进行加权,比如是否驾驶违规、是否长期压线、是否停过停止线、是否开车过程中急打方向盘或有不舒适等等,综合各种指标打出来的分数最后选择前3%的用户作为“老司机”。在理想大规模数据的情况下,即使前3%也是非常大的数据量级,依然能够保证我们拿到的数据是非常好的,至少驾驶行为是规范的,是舒适的、合理的,把这些数据给端到端就很好。
第二层还有筛选,在模型训练过程中,我们还要对模型的样本进行一些场景的匹配和分类,有很多极端的,比较难的场景,会有评价的模型、评价的手段,以及一些规则都可以把数据清洗出来,给数据各个类型做很详细的标签分类。
最后一层,我们在训练过程中会知道哪些样本是很难学习的,进行学习策略的调整,包括我们会故意构造一些合成数据进行强化学习和对比学习。针对我们的数据做一些学习方法的调整,这样下来对我们整个端到端的数据,VLM的数据都是很好的校验和清洗,给到的模型会更好。这个过程不是一蹴而就的。
郎咸朋:还有一个问题,脏数据的问题。我们的数据量训练还是比较大的,我们后面即使有非常小的脏数据,因为AI的能力训练并不是有一个污点就能污染整个效果的,所以只要准确的数据量足够大,有一点点干扰数据也没有太大的关系。
提问:过去几年智驾的技术战快速变化经历了几次大迭代,端到端+VLM会是一个有长期生命力的构架吗?
郎咸朋:端到端+VLM是模拟人类思考认知的架构,因为我们做人工智能,最终是希望可以实现拟人或者类人。看到《思考,快与慢》这本书之后受到了很大启发,最终就想知道人是怎么做认知和思考的,目前的人工智能的框架我们认为是做的非常合理的,而且我们也很欣喜的看到,在我们提出后,行业内很多企业也开始提起双系统理论的好处,并且在尝试跟进。而且双系统理论,不仅可以用在自动驾驶上,它也是未来人工智能甚至智能机器人的范式。自动驾驶可以说是一个轮式智能机器人,只是工作范围是道路。所以,我觉得是有一定的长期行为力的,但技术发展是无穷无尽的,我们会保持对先进技术的敏捷感知,如果有新的技术我们也会追踪。
提问:理想目前感觉自己和特斯拉智驾的差距有多大,大概什么时候能够追赶上?
郎咸朋:去年的时候,我回复过差半年,今年可能还会再小一点。第一,从技术架构上,我们跟特斯拉没有太大差别,甚至更领先一点,因为我们有VLM,有系统2,特斯拉只是有系统1,端到端。第二,在中国的训练算力和训练数据上,我们认为至少从现在看我们是领先于特斯拉的,因为特斯拉不管是数据的合规性,还是受到中国的一些约束,以及训练算力的部署,在中国还需要搭建。在这个层面上看,我们在中国,可能跟特斯拉差距并没有那么大,我们也特别希望特斯拉能加入进来,互相学习,专注做自身的提升。
提问:有一种观点认为智能驾驶的AI路径不太对的,不认为这条路径能走通,因为L2更注重低成本或者通用性,但L4的安全性解决后才能有通用性,所以量产车能不能做L4?
郎咸朋:第一,我们认为一切还是从用户的需求和用户价值出发。理想汽车做的任何产品,都一定是要超越或满足用户价值的,用户觉得有价值我们才做。我们认为用户对自动驾驶一定是有需求的,所以我们不可能设计用户只能在成都开L4,其他地方开不了。
第二,渐进式或者跨越式的技术路线,是各品牌都可以去讨论并选择自己的技术路线,但是理想汽车一定会选择一条满足用户需求的技术路线,我们现在选择用人工智能的方式去做自动驾驶。之前叫辅助驾驶是系统辅助人来开,主体是人。但是到现在端到端+VLM这个阶段后,我们认为是变成车自己在开。训练出完整模型之后,模型自己有能力开好这个车,我监督这个车哪里不行或者有提示需要接管,但是主体一定是车,人作为一种监督的辅助角色,如果达到这个程度就满足了我们用户对自动驾驶的需求,这是我们的逻辑。
提问:理想汽车对高阶智驾有没有收费的计划?
郎咸朋:标配和免费都是理想从第一天开始进入智能驾驶就制定的策略,“有监督的自动驾驶”对所有AD Max的车主都是不收费的。交付量比较好且企业经营稳健,也有足够的资源投入智驾研发。交付量是非常重要的一个衡量指标,对于我们来说不是单纯卷交付量,而是还能为自动驾驶提供更多的车辆训练里程。