马斯克认为激光雷达存在技术缺陷,但L4技术人员并不认可。
外界熟知特斯拉一直反对激光雷达的原因是觉得它太贵,但是从技术角度来看,特斯拉内部其实还有另一个说法,他们认为激光雷达的问题不只是贵,还在于跟摄像头的信息融合上存在技术障碍。
在讨论这个问题之前我们先来认识一个行业基本误区。目前行业将没有激光雷达的方案统称为纯视觉方案,但其实国内很多车企即便没有激光雷达,大部分都有毫米波雷达,严格意义上来说,应该是摄像头为主的视觉方案。但特斯拉的纯视觉是只有摄像头,除了激光雷达,连毫米波雷达都没有,这才是所谓的纯视觉。
这时候我们再来看马斯克抛弃激光雷达的原因在哪里。马斯克的逻辑其实很简单,摄像头是人的“眼睛”,既然人眼能看清,相机也能看清。但是摄像头存在的基本事实无法忽视,缺少深度信息的摄像头天然就存在“视觉欺骗”的缺陷。比如把白色车辆识别成白云,将路边的广告牌上内容识别为汽车。
问题出在哪里,来看看前特斯拉工程师的回答:
“多个信息流确实能提供更多的信息,但是你要解答一个问题,难道摄像头本身的信息不够吗?还是算法挖掘信息的算法能力不足?比如说紧急刹车、在城市道路的时候有顿挫感,其实根源就是它对周围物体的速度估计、它的角度估计不足,如果是这个原因,那确实激光雷达要比摄像头好很多,因为它能够给你提供更直接的信息,就是摄像头本身其实也给你信息了,只不过我们的算法不足够好,能够挖掘出这样的信息。”(摘自《硅谷101》)
这里面存在两个问题:在智驾系统里,摄像头给的信息够不够?算法能不能很好地挖掘并处理这些信息?
上述工程师的观点显然非常明确,对于第一个问题,他认为并不是摄像头收集到的信息不够,而是算法的能力不行,没有很好地挖掘和处理摄像头收集到的信息,也就是第二个问题的答案。他的论证依据是,特斯拉V12端到端架构上来以后这些问题明显改善,也就是大家常说的端到端的上限提高了。虽然现在V12依然存在很多问题,但他认为这些问题并非传感器不足导致的,核心问题依然出在算法上。
至于为什么抛弃雷达?我们可以来看一下特斯拉拿掉毫米波雷达的案例。
特斯拉之前的自动驾驶系统有毫米波雷达,然而传感器融合其实是一个很复杂的算法,特斯拉工程师发现,毫米波雷达在智驾里的作用小于摄像头,但是加上毫米波雷达就增加了算法的复杂度,甚至可能带来一些信息干扰导致系统误判。如果不能实现1+1>2的效果,传感器越多反而是累赘。
特斯拉的实践似乎将了雷达企业一军,来看激光雷达派是如何反驳的。
现在不管是Cruise、Waymo等主流L4公司都是激光雷达为主。以Waymo的Robotaxi来看,它的传感器配置可以说是武装到了牙齿,装了 5 颗激光雷达, 30 颗摄像头,6 颗毫米波雷达。仅摄像头就有好几类,一类是正常摄像头,一类是专门提升夜视能力的摄像头,有看 LED 灯的,有热成像的,还有盲区摄像头,外加红外线的闪光灯。一共五类相机。
他们的理由是,激光雷达可以直接拿到位置信息,对于算法本身的要求相对会比较低一些,并且很多可以直接通过传感器来拿到这些3D的信息,提升系统的安全性和鲁棒性,解决很多长尾问题会更轻松。
摄像头需要大量的训练数据去学出缺乏3D的信息,这样的话缺乏监管,因为没有一个参照物,很难去拿到一个现实中的一个ground truth(真值数据),如果完全通过这种半监督的学习方法,想要达到系统的一个安全性难度很高。
马斯克将摄像头等同于人的研究,但在很多L4技术人员看来,摄像头完全不能跟人眼相提并论。
首先,人眼的上限非常高,像素能够达到5亿,并且能够自动聚焦收缩,但是摄像头是人为设计出来的产物,性能参数,探测距离都有其局限性。目前像素最高的智驾视觉相机像素也才800万,跟人眼完全不是一个数量级。
其二,在可视范围内,人眼只需关注与自己驾驶行为相关的信息,而智驾相机需要关注可视范围内的所有元素,随时排查可能的风险。这样增加了相机本身和算法的“工作量”。这些问题可以通过激光雷达来弥补。
一个有意思的事情是,虽然很多L4从业者并不认可特斯拉去掉激光雷达的说法,但是他们也认为,信息并不是越多越好,因为太多额外的无效信息会加剧算法的负担。
这一点让视觉派有了“可乘之机”,试图去找到激光雷达自身的“漏洞”。他们认为,激光雷达是通过发出光束来测距,雨雪天气会影响激光反射,这些对智驾就是干扰信息,增加了算法的压力。
激光雷达派对于上述观点反驳称,现在的算法技术已经非常成熟,激光雷达的降噪抗震动等问题并不会对系统产生太大的影响,激光雷达能够产生的价值远大于它的问题。
很多人关注到一个事情,今年激光雷达制造商Luminar在第一季度财报中透露特斯拉的订单达到了10%,是其最大客户。
对此特斯拉工程师解释是为了让激光雷达在测试车上采集训练神经网络的ground truth(真值数据),因为人工无法标注物体距离,必须要用专门的传感器来标注。
在两方battle之外,我们来看一些基本事实:
目前全球知名的L4公司清一色都是激光雷达的客户,包括国内的百度,文远,小马,国外的Cruise、Waymo等。至少在L4公司的决策里,激光雷达并不是备选项,而是必选项。
有意思的是,纯视觉和激光雷达之间也在相互渗透。比如一直坚持双目视觉的卓驭科技(原大疆车载)年初发布了激目传感器,把激光雷达和摄像头融合在一起形成一个全新的传感器,并计划于2026年上车。而蔚来,小鹏,华为等原来在激光雷达领域激进的企业也都在今年推出了纯视觉方案,很大一部分原因得益于软件算法的进步。在L2企业看来,上不上激光雷达更多是商业上的考量。
值得注意的是,最近美国联邦政府对特斯拉FSD展开了调查,理由是能见度降低情况下的检测和响应能力,有分析将矛头指向了没有激光雷达导致信息密度较低。
对于马斯克来说,自证的办法非常简单,就是其最近新推出的Robotaxi,也采用没有激光雷达的纯视觉方案,如果马斯克真能通过纯视觉搞定了L4场景,那恐怕所有人都会闭嘴了。但这一天真的会来吗,到底是什么时候,没人说得清楚。