纯视觉不是自动驾驶的终极答案

科技   科技   2024-04-24 19:00   广东  

2024年中国汽车行业一边面临着新能源汽车渗透率历史性的突破50%,能源结构的变化将重构国内汽车市场格局,一边面临着产品竞争更加激烈,君不见汽车行业得卷,只见各个车企的董事长要么轮番开启直播为产品代言,要么亲自下场在网络上展开话题“论战”吸引流量,前有智己CEO讲述的员工奉献,后有哪吒汽车董事长的舔狗言论,似乎舆论战将会成为汽车行业的第一阵地,产品可以输但是舆论造势不能躺平,汽车成为会移动的键盘。
在舆论战的背后透露出国内汽车行业悲与喜两种情绪,喜在新能源汽车在用户市场的驱动下进一步完善产业链,新的技术新的产品将会加速迭代;悲是在于新技术和市场期望之间的距离在变大,无论是固态电池还是自动驾驶,所谓的新技术对于消费市场的影响力不如以往,产品端很难刺激到消费端。也就是说汽车行业的新科技引领性在逐渐减弱,更多的是解决产品的工程化问题,汽车相关的企业一把手需要解决的不再是轮船航向的问题而是船舱内的产品销售问题,所以车企打造高管IP直播宣传、产品降价将成为短期内汽车行业的常态。

在汽车行业所有的宣传之中智能化是恒定的主题,而智能化中自动驾驶的是最直观的体验,在自动驾驶方面以往拼硬件和算力已经成为过去时,各车企高管纷纷上车宣传纯视觉自动驾驶技术,再加上特斯拉在美国实现基于纯视觉的端到端自动驾驶方案。一夜之间,纯视觉方案代表自动驾驶的最新科技,成为引领自动驾驶技术发展的新方向。
然而实际上,不管是发布的新车型还是传感器企业,激光雷达的成本在下降进入千元的价格区间,同时搭载的车型速度也在加快,地图公司也在转型升级参与到汽车智能化之中,例如华为发布的新M5全系标配激光雷达、速腾聚创发布M平台新一代中长距离激光雷达MX,成本可以到200美金,首个定点车型在2025年实现车型量产。纯视觉方案成为自动驾驶技术发展过程中的一个泡泡,理论上可以通过泡泡寻找到向上突围的方向,也有可能一触即破。所以,纯视觉又一次重现了自动驾驶行业最初的模样:Demo满地跑量产一直在路上,不入局纯视觉意味着自动驾驶技术落后。

自动驾驶的终极核心是智能体对物理环境的交互,多源传感或者纯视觉都是实现交互的一种方式或者技术选型。
首先是从本质上来说,技术没有对错,真正出错的是人心,站在用户的角度技术不是关键,产品体验才是核心,而站在资本的角度,技术是一种商品是可以产生利润的工具;
其次,工业革命带给全社会一个加速的恶果。一切都在加速,从思想变化到新技术新产品的涌现,加速带来最大的影响就是社会运转不确定性的增加,也就是需要正确答案的时代已经落幕,一切以实证为主。所以,技术不应该是用来炒作,而是用来产品化使用,如果抛开产品的本质而将多源感知融合和纯视觉进行优劣分类亦或是将纯视觉方案作为自动驾驶市场化的破城锤,更多的是为资本而呐喊而不是站在用户和技术的角度。只有在这个大前提下,再来讨论纯视觉自动驾驶才有意义。

首先第一个问题,纯视觉自动驾驶方案源起何时。自动驾驶车辆作为智能体的一种,对环境的感知和认知是建立智能系统第一步也是系统从始至终需要解决的问题。在智能体感知系统中视觉是重中之重,从根本上分析主要原因有两点:
第一点,以2004年作为自动驾驶进入人们视野的元年开始,自动驾驶技术研究最早的一批先行者是以计算机视觉为主,2010年左右随着谷歌的加入宣告自动驾驶正式从实验室开始走向产业界,同时不依赖摄像头视觉的方案也在自动驾驶行业中延续。可以说,自动驾驶技术探索是源于摄像头的视觉系统,这也是计算机视觉领域继互联网应用后新的突破应用领域。从实验室的探索到产业界的应用,无论是以摄像头为主的视觉方案还是多源融合的方案,视觉一直在自动驾驶系统中扮演者至关重要的角色。
第二点,现阶段人工智能的发展逐渐趋同于以人类为模仿对象,大到机器人还是小到智能音响,智能的第一印象首先是要像人类一样,例如交互的逻辑性合乎人类的习惯、外形构造也像人、甚至试图赋予机器人类的七情六欲。以人类为智能体的参考,视觉是人类获取信息的主要渠道,根据医学研究表明,首先人类对环境的信息80%来自视觉,通过视觉神经计算物理世界的表征;其次人类也是通过视觉进行空气透视、 线条透视、运动视差、晶状体调节、视轴复合等形成形状知觉,实现从感知到认知的变化;最后是视觉能协助个体认识物体的客观存在性。从达尔文进化论的角度看,对于一个健康的人类而言,胎儿的眼部发育早期称为胚眼,从怀孕初期视神经开始发育,然后才是心脏、肢干等等器官,所以人类的视觉系统是非常重要,视觉的缺陷会影响对其他知觉所获取的知识。

同理可以说明视觉系统对于自动驾驶也很重要,但是人类的视觉和机器的视觉运行机理并不完全相同,作为智能体的一个感知输入端,并不是视觉范围越大越好,看的越清晰越好,更重要的是系统之间的平衡,否则会陷入一个小的看不清,大的看不全的困境。所以,从宏观层面来看纯视觉并不能完全实现自动驾驶,只是一种技术探索的途径。

其次引出第二个问题,纯视觉自动驾驶方案为何又火热。第一点是马斯克在社交网络上不断的宣传特斯拉纯视觉自动驾驶系统,这种视网膜效应让行业内的玩家蠢蠢欲动,反正每年特斯拉举办的AI day已经将自动驾驶前沿算法的思路公开,基于人类先天的自信和傲慢一定会觉得特斯拉可以做到自己也可以,从而忽略了特斯拉的资源储备;
第二点从理论上看以人类为模仿对象的智能体,视觉是必不可少的感知输入。自动驾驶技术从实验室到产业界的变化过程中,多源传感器一直存在。即使是强如特斯拉的自动驾驶系统,最初也是有毫米波雷达传感器,只是随着数据的增加、算力和算法的升级逐渐将毫米波雷达去掉。在国内多源传感器方案让众多自动驾驶公司看到了希望,通过多源融合的方式实现自动驾驶的功能,这其中就包括高精度地图、激光雷达、毫米波雷达等传感器,这种路径也引发了几点市场效应推动整个国内自动驾驶行业的发展:首先在技术架构层面通过多个传感器硬件弥补了单一传感器的劣势,迅速实现产品功能;
其次也催生了新的产业链或者促使原有的产品升级,例如激光雷达最早用于军事领域,随着自动驾驶的需求增大,无论是从成本方面还是性能方面都快速发展,有些创业企业已经实现了上市融资,除此之外地图厂商也是不断尝试服务模式、国家法规也根据行业进展不断的进行修改制定;
最后也是最重要的一点,那就是对于自动驾驶系统来说,多源融合方案虽然面临着成本高、数据匹配困难、正值验证的复杂等等问题,但是关键的是通过这种高成本高投入的方式得出了自动驾驶的计算边界问题,也就是自动驾驶系统的场景边界问题以及培养了一批专业的工程师,将自动驾驶技术可以实际的应用到产品当中,而不是停留在空喊口号的阶段。
理论研究可以没有边界,但是工程化一定是需要个边界,无论是特斯拉还是国内主流的自动驾驶企业都体现出同样的产品开发逻辑,只有走过一次路,才会知道终点在何处。没有人会站在巨人的肩膀上看的更远,除非此人是牛顿,所以,只能让自己做自己的巨人。众多周知,大道至简,但是在领域到至简之前一定是复杂。同样的在多源融合方案商取得领先或者具备资源积累的公司,入局纯视觉领域拔得头筹的利率更大一些;
第三点,自动驾驶行业边界的清晰引发资源的堆叠,行业内比较常见的硬件堆砌或者功能堆砌,其实软件和能力也会形成堆砌。自动驾驶的前期发展过程中,无人驾驶的话题不再成为热词,更多的是转向辅助驾驶领域,从高速辅助驾驶到城市辅助驾驶,从泊车场景到行车场景的划分。自动驾驶行业将数据、算力和算法都堆积到有限的场景之中,单一模态的数据从而量变引发质变,也是纯视觉方案的关键因素,纯视觉方案是将车端的多源数据转移到云端进行训练推理,车端硬件减少了,软硬件架构简化了,云端的基础算力能力和视觉模型终端部署能力的要求提高了,纯视觉并不是激光雷达贵、地图更新慢,而是行业资源形成的必然的路径;
第四点,无论是是多源融合还是单一纯视觉都离不来人工智能技术的加持,神经网络的进化、大模型的出现让软件算法从制定规则转向知识学习,也就是专家们常说的数据驱动的模式。基于数据学习的方式本质的支持是数理统计和概率计算,这也为新产品研发提供一种赌博式的杠杆作用,例如,最简单的在抛硬币的概率中,正反面各自出现的几率是50%,但是你要抛两三次,可能出现的全是正面或者方面,只有次数到达一定的量级,概率才会服从伯努利分布。更极端的例子,空间中的分子是时刻处于热运动之中,这种无序的运动可以通过概率来计算,按照计算结果总会有一个时刻所有的氧气分子全部集中到一个点,但实际上没有人会在正常情况缺氧窒息,原因就在于这个点出现的概率不是不存在而是相当相当的低。纯视觉方案也是依赖于数据,基于数据驱动的概率计算,同等数据量的情况下,在某些时刻的表现可能会优于多源融合,但是这个存在一定的偶然性和不确定性,尤其是使用端到端的方案后不确定性会陡增;

第五点,随着自动驾驶的边界成为行业共识,多源融合的算力、算法和数据到达一个瓶颈期,就像2D图像数据和3D激光雷达数据总是无法进行亲密无间的融合,一切的优化只是修修补补。纯视觉可以为自动驾驶的发展提供一种新的尝试思路,在没有获得大规模产品验证之前,相比多源融合,纯视觉仍然是一块处女地。这也为自动驾驶行业的焦虑提供一点缓解,也为资本行业提供新的利润工具。


最后第三个问题,纯视觉会是否成为自动驾驶的终极答案。纯视觉自动驾驶方案可以看做是万事俱备后的东风,也可以看做是自动驾驶算力集中化的体现,一切基于概率计算的实践,本质上也是无法解决自动驾驶的长尾问题。但是,如果作为产品端以用户为主,不管是多源融合还是纯视觉不应该盲目的跟随特斯拉或者过度自信,毕竟在实证时代,一切技术选型都是因时因势财因力的平衡。所以,当前以概率计算为支撑的技术体系下,纯视觉也不会是通向无人驾驶的钥匙。




每个人都是生活实践者与行业观察者
欢迎转发并关注 
汽车观察者联盟 








汽车观察124

自动驾驶64

汽车观察 · 目录


上一篇英伟达将会让智能化走向何方?

汽车观察者联盟
聚集产业发展变化,打造第三方独立意见平台,交流、共享促进产业的发展。