“端到端”是万能药吗？——一个可能拯救自动驾驶的技术

汽车 2024-10-29 09:30 北京

在很长一段时间里自动驾驶技术都在龟速进步，不仅消费者没有耐心“吃大饼”了，自动驾驶工程师也没有耐心“愚公移山”了。最近，进击的“端到端”似乎开启了一个虫洞，一夜间，它为自动驾驶行业燃起了希望，那么它到底是什么捷径？是万能药吗？

今年3月16日，特斯拉突然对所有FSD用户推送了V12.3版本。一经亮相引发众多大佬为其代言。英伟达首席执行官黄仁勋表示：“特斯拉在自动驾驶方面遥遥领先。特斯拉FSD V12版本真正具有革命性的一点，它是一个端到端的生成模型。”小鹏汽车董事长何小鹏在6月份特意飞到加州体验了一下最新版本FSD，得出结论，FSD比他作为加州新手司机开得更好。

FSD V12带火“端到端”。

疗效怎样呢？由三方网站FSD Tracker统计的特斯拉车辆接管里程数据也表明了性能的提升。较之前版本，用户完全无接管的行程次数占比从47%提升到了73%，平均接管里程从116英里提高到333英里。业界普遍猜测，FSD V12大规模推送后，用户订阅比例从以前版本的2%提升至20%。

FSD性能提升明显

与此同时，别忘了，V12版本迭代速度也大大提高，其中从V12.3.1到V12.3.5，四个版本迭代仅用时15天。近日，V12.5版本也已更新。特斯拉自动驾驶团队负责人Ashok Elluswamy此前在社交平台曾说过，FSD V12仅训练数月，就已经完全超过V11版本数年积累。

成就自动驾驶？

当前主流智驾系统分模块运行，包括感知、规划和控制。传感器对周围环境进行准确感知，系统规划行车轨迹，然后执行系统对车辆进行闭环控制。在人工编写规则的自动驾驶时代，团队每天靠人工去调试各种各样的Corner case。智驾的规控优化成了一项愚公移山式的劳动密集型作业，行业也戏谑为“用人工堆出来的智能”。

“端到端”和“模块化”的比较

在规则体系下，如果说工程师们在不同场景反复写“if……then/else”代码还不够悲催的话，那么他们在日复一日的这种“头痛医头、脚痛医脚”的打补丁进化方式中寻找智驾未来，会更为绝望。在场景没穷尽之前，规则之间就已经开始相互打架，整个模块的可维护性越来越差。很长时间里，消费者感受到的是智驾功能的机械感和不可预期的宕机、错误，而智驾工程师们则手忙脚乱地淹没在无穷无尽的Corner case中。于是，消费者和工程师们隔着鸿沟面面相觑。

端对端过程

2022年12月，特斯拉的智驾工程师Dhaval Shroff建议马斯克，抛掉那些手写的规则，搭建一张神经网络，让它大量观看人类司机的驾驶视频，要求它输出正确的行驶轨迹。在反复训练中，这张神经网络可能会习得与人类相仿的驾驶知识。这个建议当即被采纳。经过一年的研发，今年1月份采用端到端架构的FSD V12向北美用户推送。

端到端三种流行范式：包括两种模仿学习框架（行为克隆和逆最优控制）以及在线强化学习

端到端的本质就是将驾驶行为的过程“神经网络化”，这一方案有很多优点。比如决策更拟人，驾驶更舒适，泛化能力更强，场景覆盖更加多样。历史彻底被改写。神经网络的优异特性体现在，它遵循大数据与大算力组合产生奇迹的暴力美学。

某自动驾驶芯片公司AI负责人提到，诸如“道路上一滩正在起火的油”与“道路上的积水”、“正面飘来的空塑料袋”和“前车落下的钢筋”这类需要常识推理的场景，以及“不同地区的不同红绿灯外观和路口等待规则”这类需要复杂环境理解能力的场景，要么很难用规则准确描述，要么其开发工程量巨大。

自动驾驶解放双手

而这些，对于端到端系统来说，都可以被训练为隐式的中间表示。端到端的作用当然不仅仅是原地撤回一个“愚公移山”任务，更重要的是在模块间的信息传递过程中，再也不用为了强行让感知和规控“对齐颗粒度”苦心孤诣，系统在决策时，丢失的信息越少，参考的信息越全面，达成全局最优的天花板越高。从感知层到决策层、再到执行层，信息传递更密集。小马智行CTO楼天城也表示：“端到端的好处是解决了信息丢失问题。以前不同的模块非要描述一些东西，其实在一定程度上限制了给下游传递的信息。”

国内跑步进场

端到端有多好，国内的玩家就有多追捧，跑步进场是基本的尊重。5月，小鹏汽车宣布国内首个端到端量产上车，预计四季度实现“门到门”智能驾驶。7月，理想汽车提出将端到端规划为三个模块：BEV（Bird's Eye View）感知模型；预测、决策和规划统一放在一个模块；红绿灯检测作为一个模块单独拎出来。8月14日，宝骏汽车联合卓驭共同宣布，即将上市的宝骏云海将搭载“成行平台”最新成果，将二段式端到端模型在主流车型上量产落地。此外，蔚来、华为、小马智行、元戎启行、商汤绝影等也陆续宣布相关方案。

大疆端到端

从他们推出的方案看，大部分还只是两段式的端到端，并不是最终形态。感知端仍保持上一代的解决方案，但预测、决策、规划已经被集成到同一个神经网络中。未来，演进还要经历“感知模块输出特征向量，而非基于人类理解定义的结果”阶段，再到One Model，这一阶段没有明确的功能划分，从原始信号输入到最终规划轨迹的输出直接采用同一个神经网络。

理想汽车端到端方案

值得一提的是，神经网络黑箱在获取更高上限的过程中，让渡了一部分传统模块方案具备的可解释性。国内普遍的决策，还是稳中求进的态度。余承东此前公开表示：“端到端上限很高，下限也很低。”也就是说，贸然采用端到端，可能系统表现还不如此前。“现阶段，端到端还是一个需要老师傅手工打磨的工艺，并不是完全输入信息，输出结果的自动工厂。”楼天城解释，“分段式，肯定会存在信息丢失，整个模型表达能力确实不如One Model。但好处是，训练的难度会低一些，每段之间会有明确的输出披露。One Model的模型表达会更强，但训练难度也更大。”

需要的IT“民工”少了

中国电动汽车百人会发布的《特斯拉FSD的发展和影响报告》显示，特斯拉FSD V12版本人工代码由30万行缩减至3000行。随着端到端的到来，自动驾驶团队的工作模式被彻底改变，团队明显变得更加精简。据悉，特斯拉自动驾驶算法团队300人左右，除去芯片设计端的100多人，软件端只有不到200人。此前负责planning control（规划控制）的负责人离职了。

自动驾驶架构演进示意图（自制）

而理想汽车裁员风波，李想在6月8日的中国汽车重庆论坛上给出的相关言论也是，“不需要养几千人的团队去搞Corner case”。也侧面印证了团队的精简。过去人海战术的投入产出实在不成正比。元戎启行CEO周光曾说过：“在模块化架构下，一位工程师一天只能处理10多个case，效率不高。”华为自动驾驶有6000位工程师，主要用来写各种规则。这个庞大的团队每年仅薪资成本就非常惊人。但此前华为ADS智驾系统在终端的实际落地价为单车6000元。

车企们调转方向的时间就在最近。年初蔚来将感知和规控团队合并为大模型团队，集成团队重组为交付团队。理想汽车在7月份才组建了200余人的“端到端自动驾驶”组织，其中理想智能驾驶技术研发负责人贾鹏负责“端到端”研发。比亚迪也在七月份引入百度舱驾融合智驾技术负责人周鹏，由其负责比亚迪的端到端大模型规控算法开发，独立于比亚迪规划院智能驾驶研发中心，新设立的团队300人左右。显而易见，主流车企智驾部门成立的端到端团队，规模都在200～300人左右，相较于传统智驾团队动辄近千人的规模，端到端团队精简得多。

需要的数据、算力多了

人力成本虽然省去，但不代表这场竞赛的难度骤然下降。首先，没有数据支持，计算就无从谈起。端到端智驾需要的视频数据获取成本和难度极高，数据质量要求也很严苛。一位自动驾驶工程师提到，他们在训练端到端模型时发现，已有路测数据只有2%可以用。在这方面，特斯拉巨大的销量促使其累计了全球最多的高质量行车数据，FSD累计行驶里程量级到20亿公里。

鸿蒙智行

特斯拉在端到端神经网络开发之初，就投喂了1000万个经过筛选的人类驾驶视频片段，以每段15秒计，也超过4万小时。这只是马斯克在2023年初透露的信息。此后，特斯拉人驾视频数据还在以每天1600亿帧/天的速度增加。而全球最大的自动驾驶公开数据集Nuplan的规模是1200小时。国内上海AI lab浦驾团队搜罗了整个Youtube，最终搭建了一个2000小时的数据集OpenDV-2K，涵盖240多个城市驾驶数据。截至8月，华为智驾总里程约为4.6亿公里，随着鸿蒙智行旗下车型销量逐步增高，有望与特斯拉缩小数据量差距。

特斯拉Dojo超级计算机用了非常多英伟达的GPU

根据特斯拉的计算，完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的clips（视频片段）才能正常工作。“毫不夸张地说，数据会占据端到端自动驾驶开发中80%以上的研发成本。”毫末智行数据智能科学家贺翔如此表示。除了数据层面的差距，国内智驾团队在算力储备上差距也不小。到今年年底，特斯拉预计将拥有100eflops云端算力，国内相关企业参数最高的是商汤的12eflops。智驾投入较为激进的华为，云端算力是5eflops。小鹏智驾云端最新算力储备是2.51eflops。集越汽车首席执行官夏一平也指出，端到端成本投入不在于开发模型，而是算力投资。

特斯拉超算中心为智驾提供算力

6月4日，马斯克在推特上说，买了10万片卡，但没地方放，就在德州工厂上扩展了一个数据中心，放了5万片进去。在国内，这实在是一种奢侈。蔚来AI平台负责人白宇利说：“想要做端到端，至少是万卡。”

小鹏AI算力储备

结语：端到端是好，难也是真难。何小鹏在小鹏汽车的520 AI DAY上提出，端到端之后，头部效应会越来越明显。在笔者看来，智驾是一条技术路径逐渐收敛的赛道，也是庞大的资源吞噬器。对于，资本、技术等实力并不那么强大的车企，在舱内深耕消费者体验，可能更有效。

欢迎线上购买《汽车之友》杂志

北京时尚

成都杂志铺

扫码进店，线上购买，快递到家

获取更多图文咨询，欢迎关注《汽车之友》微信公众号

获取更多视频咨询，敬请关注《汽车之友》视频号

http://mp.weixin.qq.com/s?__biz=MjM5NDgxNTkyMA==&mid=2650140425&idx=1&sn=625c19b4d0c55e914e18515a17c1c65b

汽车之友

《汽车之友》杂志是由中国汽车工程学会主办，全国发行，影响力广泛的汽车刊物。

最新文章

科普词条：汽车喇叭

每一面都有故事——东风Honda灵悉灵悉L

科普词条：流媒体后视镜

邂逅洱海——smart精灵#5豪华大5座纯电SUV首测

大隐隐于市——格拉茨麦格纳一日游

安全冗余≠多余——车载激光雷达的现状与分析

你看我几分像从前——试驾212 T01

信不信由你——麦格纳碰撞测试中心参观

“零件帝国”崛起记——麦格纳的汽车工业逆袭

“端到端”是万能药吗？——一个可能拯救自动驾驶的技术

“犁”地与播“种”——2024兰博基尼Esperienza Corsa赛道日

科普词条：汽车摄像头

给汽车点儿颜色看看 ——不同的车漆会带来什么？

科普词条：汽车天窗

新能源和续航全都要——30万以内增程式电动汽车如何选择

小火慢炖与大火快炒——电池的快充与慢充

为《销量周榜》填歌词

重口味——“盐”离子电池们

每位发明家都是“好厨子”——电池的发展历史

风洞里出颜值——东风风行星海S7

托森C sm型差速器解析，成就奥迪quattro美名的关键核心

老兵永不凋零——212 T01

科普词条：汽车双层玻璃

年轻人的越级平替——小鹏MONA M03首秀路试

科普词条：汽车雷达

内卷升级战，新能源造车势力需不需要赛车

1、2、3、4，起步走！“漫步”博世华域烟台工厂

为家庭添置一台代步车，5万元以下电动汽车如何选择

永远竖立着保持优雅，那些年汽车引擎盖上的装饰

汽车圈的熵增定律

永不停歇的“华尔兹”——电动机技术的创新

总有一款适合你——车用驱动电机技术

“转”出一番新景象——电动机的发展与历史

“NI”放心，让我来！—四维图新NI in Car智能化一体解决方案

汽车SOC：电动车的“能量指针”

科普词条：车身扭转刚度

科普词条：AEB

跃马传奇的动力之源——法拉利12缸发动机的传承

拿捏平衡点——关于增程式技术的讨论

把最好的放在一起，试驾哪吒S猎装版

豪华的沉淀与改变，林肯全新飞行家

邂逅大风景，试驾红旗HS7 PHEV

理想与现实的落差：盘点新能源汽车上的那些反人类设计

速度与艺术的纯燃油绝唱试驾兰博基尼Huracán Tecnica

百变星君——混合动力技术的多样性

繁复亦精彩——混动系统的关键零部件

两全其美——有趣的混合动力技术进化史

谁还没个军车梦？东风猛士917

一场漂亮的翻身仗？试驾哪吒L增程版

多一点空间，第三排座椅不同的收起方式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉