端到端的另一种声音:听一听 Mobileye CEO 的观点

汽车   2024-10-31 10:25   上海  

来源:Mobileye、AI 大模型沉思录 | 首图图源:网络
全文 4000+ 字,预计阅 25-30 分钟
进群交流:点此处


2024 年,相信在自驾行业大家听到最多的一个词就是“端到端”,而国内各大车企均将其作为一个产品宣传卖点。作为一个老牌自驾供应商和运营商,Mobileye是怎么看待自动驾驶的技术路径的呢?让我们一起看看 2024 Driving AI上Mobileye CEO Shashua 教授关于自动驾驶技术路径的分享,特别是从理论和实践两方面对比了端到端和复合 AI 系统间的区别以及未来的技术路线。

如何解决自动驾驶

  • ME的目标是完全自动驾驶,如果Mobileye只是做ADAS的话,完全可以每年节约6亿美元的运营费用;

  • 自动驾驶是一场马拉松,核心挑战是如何维持一个可持续有收入业务的同时持续向完全自动驾驶前进,不能仅靠外部投资;

  • Shashua教授将市面上解决完全自动驾驶的技术路径分为三类,分别以Waymo、Tesla和Mobileye为代表:


传感器
AI技术
成本
模块化
地理可扩展性
MTBF
Waymo
激光为中心
复合AI系统
不能
未知
Tesla
纯摄像头
端到端系统
可以
可以
未知
Mobileye
相机为中心
复合AI系统
可以
可以
注:MTBF(Mean Time Between Failures):两次故障间的平均时间
Waymo:复合人工智能系统,整个系统有很多模块组成,两次接管间的平均间隔时间在5000~10000小时间,传感器成本很高,对于Robotaxi可以商业模式行得通,但对于车辆消费者比较贵;模块化不行指的是不能简化系统提供服务,必须是整套系统来保障安全;地理可扩展性是指的是waymo采用了高清地图,进入到新的区域前需要制作地图。
特斯拉:仅相机指的是不用其他传感器,采用的是端到端系统。
Mobileye开放了新的传感器接入,采用的是复合AI系统。
从MTBF来看,到底是端到端还是复合AI系统是未来呢?

端到端存在的问题

端到端方法在特斯拉FSD12版本上线之后,便引起广泛关注和业内跟随,它的优势:
  • 没有胶水代码,仅靠神经网络+输入摄像头数据+输出汽车需要行驶的轨迹,整个过程更像一个数据通道,你可以增加越来越多的数据让模型通过观察人类司机驾驶习惯来持续学习,随机时间推移数据越来越多,模型在某一时刻达到奇点,模型可以达到甚至超过人类的驾驶能力
  • 无监督数据,不需要任何人工标注便可以达到很高的MBTF。
然而,实际上却遇到如下问题:
  • 胶水代码从线上转移到线下,Transformer架构通过预测下一个Token的概率来实现对未来轨迹的预测,并不是在预测正确性水平,因此需要区分“正确但不常见”和“错误但常见”这两种情况的差异,但是模型并不知道如何区分它们,这就是为什么语言模型中需要做RLHF,所以你需要从海量的驾驶行为数据中找到什么是正确的,什么是错误的,这就需要你写大量的离线处理代码
  • 无监督学习而言,存在三方面问题(1)计算器问题:以现在领先的大语言模型为例,依然无法很好地估计两个数字的乘法,它使用计算器这一工具来实现,从神经元或统计的角度出发,它们无法抽象出乘法的概念,因此OpenAI引入了一个计算器 ,一个python代码实现的计算器;(2)捷径学习问题;(3)长尾问题。 
下面从“没有胶水代码”和“无监督数据”两方面来详细分析端到端存在的问题。

没有胶水代码

端到端的目的是最大化P[y|x],其中y是未来的人类愿意采用行驶轨迹,x指的是过去的传感器视频输入,这样的学习目标函数容易让模型更倾向“常见&错误”而非“不常见&正确”,例如:绝大多数司机看到停止标识时是踩着刹车减速通过而不是立马停下来,这种场景下“踩刹车减速通过”是常见但错误的驾驶行为,而停下来才是正确的行为;很多粗鲁司机cut-in。如果让模型学习的话,非常容易学习到这种不良驾驶习惯,而不是正确的驾驶行为。

这就是为什么大语言模型例如ChatGPT引入了RLHF模块,因为在大量训练语料中,存在着很多不正确的语言片段,如果仅是通过统计的话,模型很容易学到这些不正确的数据,而通过引入RLHF的话,人类告诉模型什么是正确的,什么是错误的,对同一个问题排序反馈的阶段。

因此,自动驾驶中的RLHF是什么?实际上就是这些胶水代码,只不过从线上转移到了线下。因此,端到端中的“没有胶水代码”似乎只是减轻了线上代码,线下也许更重了。

无监督学习

前面介绍道,无监督学习容易遇到计算器、捷径学习以及长尾问题:

  • 计算器问题:从大量数据中的端到端学习经常会丢失重要的概念,因此在实际场景中并不能泛化得很好。例如学习两个数相乘,即使当前最为领先的语言模型依然很艰难。假设你有两个数字,每个数字有1~20位,以下是GPT-4o和o1-mini的评测结果,红色表示正确率为0,绿色表示正确率大于0直至100%,可以看出o1的结果要优于4o,但当数字的位数比较多的时候,表现依旧不理想。

这是因为模型没有抽象出长乘法概念,模型看到的只是数字及其乘法的示例。那么OpenAI这类公司是怎么解决这种问题的呢?他们使用了工具,如果你让ChatGPT计算两个数相乘,它不使用模型本身来输出结果,而是输出一段python代码,python代码调用计算器来算乘法,而计算器是一个常用的工具,不需要学习,这就是我们所说的注入抽象。
所以你需要注入抽象,然而不是所有的东西无监督都可以学习,否则需要非常非常多的时间来学习。如果你有无限的时间、无限的数据也许这些有可能实现,实际上执行起来却不现实。
  • 捷径学习的问题
众所周知,依赖多传感器是一个已经成立的提升MTBF的方法,问题是如何融合不同的传感器?端到端方法是仅仅是把全部传感器的原始数据喂给一个模型并训练它。
那么,这种方式会遇到捷径学习问题:不同的模态学习难度不同,通过随机梯度下降的方法很难把各个模态数据的优势利用起来。因为有些信息的样本复杂度低,意味着你需要少量的数据便可以学习到模式,而有的则相反。例如激光雷达,由于它是精确的三维传感器,所以你从数据里学习到概念需要用的数据量要比相机少得多。激光是低复杂度的信息源,而相机是高复杂度的信息源,如果将这些复杂度不同的传感器数据放在一起训练会怎么样呢?
这里我们考虑三种常见的传感器数据:相机、毫米波雷达、激光雷达,假设符合以下两个条件:(1)每种传感器系统的失败概率为ϵ(例如1000小时失败一次);(2)不同传感器系统失败是独立的。

我们对比以下两种方式:

  • 低层级端到端融合(在传感器数据输入阶段进行融合,并且训练一个模型)

  • 复合AI系统:分开基于每个模态训练一个模型,然后在高层级(结果)上融合
哪种方式会更好呢?最后的结论是端到端的SGD训练难以有效利用具有不同样本复杂度的系统(如摄像头较难学习),导致训练的效率和效果受到限制。
  • 长尾问题
长尾问题是自动驾驶中一个老生常谈的问题,目前自动驾驶技术发展到这一阶段,基本上主要时间都是在解决这些长尾问题。

从上图可以看出,对于长尾问题,分为两种场景:乐观场景(Optimistic Scenario)和悲观场景(Pessimistic Scenario):

乐观场景(Optimistic Scenario):

  • 在这种情境下,一些稀有事件可以大幅度地减少总体概率质量(probability mass)。这意味着少数关键的稀有事件可以显著提升系统性能,导致更高的MTBF。

  • 图中蓝色的“Optimal Scenario”曲线表示,在少数几个稀有事件的影响下,事件的概率迅速下降。

悲观场景(Pessimistic Scenario):

  • 在这种情境下,每个稀有事件对概率质量的影响非常小。这意味着即使处理了很多稀有事件,系统的故障率仍然没有显著改善。

  • 红色虚线“Pessimistic Scenario”曲线表明,太多的稀有事件没有带来显著的概率减少,这种情况下很难提升系统性能和MTBF。

实际上我们也不知道当前处理哪种场景中,下图是特斯拉的一些不同版本的表现数据:

图表展示了不同版本FSD系统中车辆在城市和高速环境下的“关键脱离里程”(Miles to Critical   Disengagement)变化情况。

图表和解释说明了尽管FSD系统通过在端到端版本V12更新后有了一定的进步,但仍然存在“长尾问题”,即罕见但重要的情况处理得不够好。依靠数据管道仅减少系统的方差,虽然有一定改善,但进展非常缓慢。这意味着要提升FSD的性能,可能需要其他方式(例如有监督学习或更复杂的模型),而不仅仅依靠无监督的数据优化。

Mobileye的解法

Shashua在介绍他们在做什么之前,首先谈到了机器学习里经典的偏差-方差权衡,如下图所示:

  • 偏差(Bias,也称为近似误差)描述了学习系统无法完全反映现实世界的丰富性。高偏差通常意味着模型过于简单,无法捕捉数据中的复杂关系,导致欠拟合(underfitting)。

  • 方差(Variance,也称为泛化误差)描述了学习系统过度拟合观察到的数据,无法很好地泛化到未见过的例子。高方差通常意味着模型过于复杂,过度拟合训练数据,导致在新数据上的表现不佳。

这里x轴表示的是注入抽象的数量,抽象上面也介绍过,自动驾驶中指的比如给定图像输入,输出感知状态,如行人、自行车、车辆等。其实指的就是先验知识,因此你事先知道在驾驶场景中什么是重要的。如果你注入的抽象太多,会引入近似误差,这意味着模型的丰富性并不能反映现实的丰富度,所以是你限制太多了,限制了模型所能表征世界的容量。如果你不注入抽象概念,就会得到较高的泛化误差。因此,这里需要引入合适的抽象以使得整体系统误差最小。

根据这一原则,Mobileye给出了如下方案:
  • 冗余设计: 通过多个传感器和算法实现冗余,确保在单一传感器或算法失效时,系统仍能正常运行。
  • 责任敏感安全模型 (RSS): 通过RSS模型分离正确和错误的行为,确保系统在复杂环境中的安全性。
  • 多数投票原则 (2 out of 3, 2oo3):在传感器之间存在矛盾时,采用多数原则来决定最终行为,降低错误决策的概率。
  • Primary-Guardian-Fallback (PGF) 融合: 通过构建Primary、Guardian和Fallback三个系统,确保在Primary系统失效时,Guardian系统能够检测并切换到Fallback系统,从而保证系统的连续性和安全性。

Takeaways

从Shashua教授的分享中我们可以认为在当前阶段,端到端依然存在核心要解决的问题尚未有答案。因此,Mobileye从业务持续发展的角度,在这一阶段采用了CAIS(Compound AI System,复合人工智能系统)的方式来持续迭代自动驾驶算法。从长远看,端到端依然是未来唯一的技术路线。

公号👇发消息“我来了”,可直接领取“10G+自动驾驶相关资料”


联 系 & 声 明

进交流群

号主六耳

知识星球

声明:除文内特殊声明外,本公众号内所有文章编写或转载的目的仅用于学习和交流,不予以商用,不代表本号观点及立场。本公众号内资讯及正文引用图片均由个人公众号 ADS 智库六耳基于官网或公开信息梳理或引用。本公众号所引用及转载内容版权均归原作者所有,凡是注明来源 “ XXX ADS 智库 ” 或作者为 “ XXX 六耳、XXX ADS 智库 ” 的文章转载或引用时请注明来源 ADS 智库。若有版权或其他任何问题请联系六耳( 微信号:adas_miao ),本号将及时处理。


转发、点赞、在看
,安排一下?

ADS智库
聚焦 ADAS \x26amp; ADS 相关内容,公号发消息『我来了』免费领取 10G+ 自动驾驶资料
 最新文章