在很长一段时间里自动驾驶技术都在龟速进步,不仅消费者没有耐心“吃大饼”了,自动驾驶工程师也没有耐心“愚公移山”了。最近,进击的“端到端”似乎开启了一个虫洞,一夜间,它为自动驾驶行业燃起了希望,那么它到底是什么捷径?是万能药吗?
今年3月16日,特斯拉突然对所有FSD用户推送了V12.3版本。一经亮相引发众多大佬为其代言。英伟达首席执行官黄仁勋表示:“特斯拉在自动驾驶方面遥遥领先。特斯拉FSD V12版本真正具有革命性的一点,它是一个端到端的生成模型。”小鹏汽车董事长何小鹏在6月份特意飞到加州体验了一下最新版本FSD,得出结论,FSD比他作为加州新手司机开得更好。
FSD V12带火“端到端”。
疗效怎样呢?由三方网站FSD Tracker统计的特斯拉车辆接管里程数据也表明了性能的提升。较之前版本,用户完全无接管的行程次数占比从47%提升到了73%,平均接管里程从116英里提高到333英里。业界普遍猜测,FSD V12大规模推送后,用户订阅比例从以前版本的2%提升至20%。
FSD性能提升明显
与此同时,别忘了,V12版本迭代速度也大大提高,其中从V12.3.1到V12.3.5,四个版本迭代仅用时15天。近日,V12.5版本也已更新。特斯拉自动驾驶团队负责人Ashok Elluswamy此前在社交平台曾说过,FSD V12仅训练数月,就已经完全超过V11版本数年积累。
成就自动驾驶?
当前主流智驾系统分模块运行,包括感知、规划和控制。传感器对周围环境进行准确感知,系统规划行车轨迹,然后执行系统对车辆进行闭环控制。在人工编写规则的自动驾驶时代,团队每天靠人工去调试各种各样的Corner case。智驾的规控优化成了一项愚公移山式的劳动密集型作业,行业也戏谑为“用人工堆出来的智能”。
“端到端”和“模块化”的比较
在规则体系下,如果说工程师们在不同场景反复写“if……then/else”代码还不够悲催的话,那么他们在日复一日的这种“头痛医头、脚痛医脚”的打补丁进化方式中寻找智驾未来,会更为绝望。在场景没穷尽之前,规则之间就已经开始相互打架,整个模块的可维护性越来越差。很长时间里,消费者感受到的是智驾功能的机械感和不可预期的宕机、错误,而智驾工程师们则手忙脚乱地淹没在无穷无尽的Corner case中。于是,消费者和工程师们隔着鸿沟面面相觑。
端对端过程
2022年12月,特斯拉的智驾工程师Dhaval Shroff建议马斯克,抛掉那些手写的规则,搭建一张神经网络,让它大量观看人类司机的驾驶视频,要求它输出正确的行驶轨迹。在反复训练中,这张神经网络可能会习得与人类相仿的驾驶知识。这个建议当即被采纳。经过一年的研发,今年1月份采用端到端架构的FSD V12向北美用户推送。
端到端三种流行范式:包括两种模仿学习框架(行为克隆和逆最优控制)以及在线强化学习
端到端的本质就是将驾驶行为的过程“神经网络化”,这一方案有很多优点。比如决策更拟人,驾驶更舒适,泛化能力更强,场景覆盖更加多样。历史彻底被改写。神经网络的优异特性体现在,它遵循大数据与大算力组合产生奇迹的暴力美学。
某自动驾驶芯片公司AI负责人提到,诸如“道路上一滩正在起火的油”与“道路上的积水”、“正面飘来的空塑料袋”和“前车落下的钢筋”这类需要常识推理的场景,以及“不同地区的不同红绿灯外观和路口等待规则”这类需要复杂环境理解能力的场景,要么很难用规则准确描述,要么其开发工程量巨大。
自动驾驶解放双手
而这些,对于端到端系统来说,都可以被训练为隐式的中间表示。端到端的作用当然不仅仅是原地撤回一个“愚公移山”任务,更重要的是在模块间的信息传递过程中,再也不用为了强行让感知和规控“对齐颗粒度”苦心孤诣,系统在决策时,丢失的信息越少,参考的信息越全面,达成全局最优的天花板越高。从感知层到决策层、再到执行层,信息传递更密集。小马智行CTO楼天城也表示:“端到端的好处是解决了信息丢失问题。以前不同的模块非要描述一些东西,其实在一定程度上限制了给下游传递的信息。”
国内跑步进场
端到端有多好,国内的玩家就有多追捧,跑步进场是基本的尊重。5月,小鹏汽车宣布国内首个端到端量产上车,预计四季度实现“门到门”智能驾驶。7月,理想汽车提出将端到端规划为三个模块:BEV(Bird's Eye View)感知模型;预测、决策和规划统一放在一个模块;红绿灯检测作为一个模块单独拎出来。8月14日,宝骏汽车联合卓驭共同宣布,即将上市的宝骏云海将搭载“成行平台”最新成果,将二段式端到端模型在主流车型上量产落地。此外,蔚来、华为、小马智行、元戎启行、商汤绝影等也陆续宣布相关方案。
大疆端到端
从他们推出的方案看,大部分还只是两段式的端到端,并不是最终形态。感知端仍保持上一代的解决方案,但预测、决策、规划已经被集成到同一个神经网络中。未来,演进还要经历“感知模块输出特征向量,而非基于人类理解定义的结果”阶段,再到One Model,这一阶段没有明确的功能划分,从原始信号输入到最终规划轨迹的输出直接采用同一个神经网络。
理想汽车端到端方案
值得一提的是,神经网络黑箱在获取更高上限的过程中,让渡了一部分传统模块方案具备的可解释性。国内普遍的决策,还是稳中求进的态度。余承东此前公开表示:“端到端上限很高,下限也很低。”也就是说,贸然采用端到端,可能系统表现还不如此前。“现阶段,端到端还是一个需要老师傅手工打磨的工艺,并不是完全输入信息,输出结果的自动工厂。”楼天城解释,“分段式,肯定会存在信息丢失,整个模型表达能力确实不如One Model。但好处是,训练的难度会低一些,每段之间会有明确的输出披露。One Model的模型表达会更强,但训练难度也更大。”
需要的IT“民工”少了
中国电动汽车百人会发布的《特斯拉FSD的发展和影响报告》显示,特斯拉FSD V12版本人工代码由30万行缩减至3000行。随着端到端的到来,自动驾驶团队的工作模式被彻底改变,团队明显变得更加精简。据悉,特斯拉自动驾驶算法团队300人左右,除去芯片设计端的100多人,软件端只有不到200人。此前负责planning control(规划控制)的负责人离职了。
自动驾驶架构演进示意图(自制)
而理想汽车裁员风波,李想在6月8日的中国汽车重庆论坛上给出的相关言论也是,“不需要养几千人的团队去搞Corner case”。也侧面印证了团队的精简。过去人海战术的投入产出实在不成正比。元戎启行CEO周光曾说过:“在模块化架构下,一位工程师一天只能处理10多个case,效率不高。”华为自动驾驶有6000位工程师,主要用来写各种规则。这个庞大的团队每年仅薪资成本就非常惊人。但此前华为ADS智驾系统在终端的实际落地价为单车6000元。
车企们调转方向的时间就在最近。年初蔚来将感知和规控团队合并为大模型团队,集成团队重组为交付团队。理想汽车在7月份才组建了200余人的“端到端自动驾驶”组织,其中理想智能驾驶技术研发负责人贾鹏负责“端到端”研发。比亚迪也在七月份引入百度舱驾融合智驾技术负责人周鹏,由其负责比亚迪的端到端大模型规控算法开发,独立于比亚迪规划院智能驾驶研发中心,新设立的团队300人左右。显而易见,主流车企智驾部门成立的端到端团队,规模都在200~300人左右,相较于传统智驾团队动辄近千人的规模,端到端团队精简得多。
需要的数据、算力多了
人力成本虽然省去,但不代表这场竞赛的难度骤然下降。首先,没有数据支持,计算就无从谈起。端到端智驾需要的视频数据获取成本和难度极高,数据质量要求也很严苛。一位自动驾驶工程师提到,他们在训练端到端模型时发现,已有路测数据只有2%可以用。在这方面,特斯拉巨大的销量促使其累计了全球最多的高质量行车数据,FSD累计行驶里程量级到20亿公里。
鸿蒙智行
特斯拉在端到端神经网络开发之初,就投喂了1000万个经过筛选的人类驾驶视频片段,以每段15秒计,也超过4万小时。这只是马斯克在2023年初透露的信息。此后,特斯拉人驾视频数据还在以每天1600亿帧/天的速度增加。而全球最大的自动驾驶公开数据集Nuplan的规模是1200小时。国内上海AI lab浦驾团队搜罗了整个Youtube,最终搭建了一个2000小时的数据集OpenDV-2K,涵盖240多个城市驾驶数据。截至8月,华为智驾总里程约为4.6亿公里,随着鸿蒙智行旗下车型销量逐步增高,有望与特斯拉缩小数据量差距。
特斯拉Dojo超级计算机用了非常多英伟达的GPU
根据特斯拉的计算,完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的clips(视频片段)才能正常工作。“毫不夸张地说,数据会占据端到端自动驾驶开发中80%以上的研发成本。”毫末智行数据智能科学家贺翔如此表示。除了数据层面的差距,国内智驾团队在算力储备上差距也不小。到今年年底,特斯拉预计将拥有100eflops云端算力,国内相关企业参数最高的是商汤的12eflops。智驾投入较为激进的华为,云端算力是5eflops。小鹏智驾云端最新算力储备是2.51eflops。集越汽车首席执行官夏一平也指出,端到端成本投入不在于开发模型,而是算力投资。
特斯拉超算中心为智驾提供算力
6月4日,马斯克在推特上说,买了10万片卡,但没地方放,就在德州工厂上扩展了一个数据中心,放了5万片进去。在国内,这实在是一种奢侈。蔚来AI平台负责人白宇利说:“想要做端到端,至少是万卡。”
小鹏AI算力储备
结语:端到端是好,难也是真难。何小鹏在小鹏汽车的520 AI DAY上提出,端到端之后,头部效应会越来越明显。在笔者看来,智驾是一条技术路径逐渐收敛的赛道,也是庞大的资源吞噬器。对于,资本、技术等实力并不那么强大的车企,在舱内深耕消费者体验,可能更有效。
欢迎线上购买《汽车之友》杂志
北京时尚
成都杂志铺
扫码进店,线上购买,快递到家