端到端催熟了智能驾驶体验,处于智驾领域绝对头部领先身位的小鹏汽车成功翻身,足以证明端到端的巨大优点。但是,被国内车企吹上天的端到端也一些不容忽视的缺点。 万事万物大都既有优点也有缺点,很多东西都是一把双刃剑!端到端重构了自动驾驶的技术栈,算法的全面AI化,使得数据成为驱动自动驾驶模型迭代的基础养料。从此,自动驾驶系统在一定程度上摆脱了传统范式下有多少人工就有多少智能的尴尬,也杜绝了算法工程师有意无意埋一些bug的做法。天道昭昭,人心可鉴,在裁员四起、人心惶惶的大背景下,理解一下程序员们养bug自重的无奈吧。在给定参数量和模型架构的前提下,自动驾驶模型的能力完全取决于训练的数据规模有多大、数据的质量有多高、分布性有多么丰富。在规则+算法的范式下,自动驾驶系统尚有部分知识来自于人工设定的规则,到了完全转向数据驱动的端到端范式之后,自动驾驶系统全面模型化,系统压缩的所有驾驶知识完全来自训练数据。这就意味着,到了端到端时代,自动驾驶系统训练的数据规模比海量更加海量了。iPhone大屏化之后,宣称“Bigger than bigger”,比逼格更逼格,华为引入全向防撞系统之后,宣称“比安全更安全”,大家借此体会一下啥叫比海量更海量吧。随着智驾里程的增长以及自动驾驶系统能力的提升,训练的数据量当然也会不断增长。如果非要刻舟求剑的话,蔚来截至今年4月份的视频训练量为1,000万个clips,小鹏截至今年9月份的视频训练量为2,000万个clips,特斯拉那么恐怖的训练算力,至少5,000万个clips。以上说的只是训练素材的数量单位,还得考虑训练频次和模型的迭代速度。就跟学霸们通过反复刷题提升成绩一样,模型也是通过反复地训练这些数据,才把驾驶知识训练到模型的参数里面的。特斯拉每天迭代一个小版本,假设需要训练20个频次,每天就得训练10亿个clips! 科学分析有两种方式:定量分析和定性分析。比海量更海量属于定性分析,它可以给你一种模模糊糊的感觉,你尽可以根据自己的立场宣泄对端到端或褒或贬的情绪,不过,最终还是得进行定量分析,用真实的数据做严谨的对比。看数据,特斯拉每天用5,000万个clips训练模型20个轮次,相当于训练10亿个clips,训练算力有限,FSD模型迭代的速度就会减慢,特斯拉将“训练算力”推高到100E的核心原因就在这里。这个100E其实不只包括训练算力,还包括推理算力,更为准确的说法是训推一体的AI算力。随着数据标注工具推理能力的增加,过去主要依靠人工实现的数据标注工作逐渐得以自动化实现,数据标注效率大大提升了。不过,和模型需要一遍又一遍地训练一样,训练素材的精标结果也需要一遍一遍地刷出来,其结果就是,自动驾驶数据闭环中的自动标注过程需要消耗的推理算力也大大增加了。也就是说,目前的自动驾驶数据闭环消耗的绝不仅仅是训练算力,还包括推理算力,模型训练阶段消耗训练算力,训练之前的数据标注消耗推理算力,用的是不同的服务器。之所以还在继续沿用训练算力这么一个术语,主要原因是是历史沿袭的约定俗成,而且大部分人还没有及时更新认知。和分模块时代主要在感知层面打标签不同的是,到了决策层也要模型化当然也要做数据标注的端到端时代,视频训练片段的数据标注工作大大增加了。这就意味着,端到端视频训练片段的数据标注工作量非常巨大。特斯拉买英伟达H100做训练,自家的Dojo做推理,玩的那叫一个溜!而本土车企不只是训练算力不足,捉襟见肘的推理算力更是被端到端需要的海量数据标注工作打了个措手不及!