AI学会思考,自动驾驶加速成长|AI百业共生

文摘   2024-06-21 15:30   上海  


人们对自动驾驶汽车的想象已有百年,第一辆真正意义上的自动驾驶汽车要说回到1977年——日本筑波机械工程实验室设计出了可以将道路图像信息回传到电脑的的摄像系统。


这辆车横向控制需要钢轨辅助,时速大约32公里,换言之行驶路径都是提前规划好的,纯纯的计算机科学。


1977年自动驾驶汽车(左)和1989年的NavLab 5


到20世纪80年代,美国卡耐基梅隆大学一名叫Dean Pomerleau的学生尝试引入神经网络,对摄像头感知到的道路信息进行处理分析,进而规划路线,以此为基础设计出了半自动驾驶汽车“NavLab 5”。


这辆车只由电脑控制速度和刹车,最终完成了一次将近4800公里的美国公路之旅,而这套叫ALVINN(Autonomous LandVehicle In a Neural Network)的系统应该算得上自动驾驶模型的雏形。


图源:IBM


早期的神经网络充其量是包含了一些参数的数学模型,训练起来也不如想象般容易,以至于后来受到行业冷落,在接下来快二十年时间里,自动驾驶的发展近乎陷入停滞。


自动驾驶汽车集感知、决策、规划与控制于一体,传统的机器学习算法往往需要人为干预,比如实车采集的路测数据先要进行预处理,标注数据特征,然后才能将其导入模型进行训练。之后工程师发现问题,还要将问题投喂给模型。


一来,人工数据标注工作耗时且成本高,再者,复杂环境下对目标识别准确率的把控使得传统算法难以为继。


直到2012年,深度学习(或称深度神经网络)的快速发展,让自动驾驶汽车迎来新的增长点。相比传统机器学习,深度学习算法可以自动从图像、视频等数据中学习表征,无需人工干预,通过自训练便能不断改进优化模型。


AI、机器学习和深度学习的关系@英伟达


同年,谷歌获得了美国首张自动驾驶汽车的测试牌照,而世界其他地区用海量数据喂养AI模型的方式也开始流行起来。即便如此,这一时期的深度学习架构依然无法让自动驾驶汽车变得像人类老司机一样。


拿当时主流的卷积神经网络架构CNN来说,由于模型参数量较少,其鲁棒性和泛化能力有待提高,预测能力偏弱。


硅友们可以想象一下,如果自动驾驶汽车跑惯了熟悉的道路场景,换了新环境就无所适从,面对陌生车辆更别提预判司机行为,采取什么措施了。


理论上,基于深度学习的智驾系统可以更加拟人化,包括推理预测能力更强,应对长尾问题随机应变的能力更突出,



转折发生在2021年,特斯拉在首届AI DAY上推出了基于Transformer大模型的BEV(Bird's-eye-view)算法,使过去基于2D图像视角的感知方式,升级为鸟瞰图视角下的3D感知。


相比CNN,Transformer的优势包括模型参数量大,并行计算效率更高,泛化性更好;基于Attention机制,具备上下文学习的能力,推理性更好;可以统一处理不同传感器数据等。


可以这样说,对于实现全自动驾驶这个目标,Transformer的出现不亚于一块新大陆。


多年前丰田研究院( TRI )提到过一个观点,自动驾驶汽车在全球范围内的行驶里程只有达到10万亿英里,才能覆盖各种复杂场景下的驾驶情况。


但以ChatGPT3的开发为例,45TB的纯文本进行质量过滤后,仅剩下570GB用于训练的文本,有效数据占比1.27%。保时捷预估,一台测试车辆在高度自动驾驶期间所传输的数据量高达每日44TB,这里面有效数据可能少之又少。


就像Auto X创始人肖健雄之前在世界人工智能大会上说的那样,自动驾驶公司不可能获得无穷无尽的数据,正确做法应当是通过可观的数据,开发出能够处理绝大多数场景的机器学习能力。在AI的加持下,自动驾驶必须学会思考。


特斯拉BEV感知


BEV算法就更好理解了,纯视觉系统采集到的信息是2D图像,但只通过平面根本无法判断目标物体的距离及深度信息。这也是为什么前向双目摄像头能在最近两年逆袭成功,轻地图路线得以更加具象化的原因。


据毫末智行CEO顾维灏称,BEV方案上车后,对车道线和常见障碍物的检测效果相对不错,各种复杂工况下的探测范围和测量精度也都有明显提升。


2022年小鹏发布了“XNet深度视觉神经网络”,引入BEV和Transformer,其他如小马智行、Nullmax、商汤绝影等自动驾驶公司也都将BEV+Transformer视为自动驾驶目标实现的主流路线。


BEV+Transformer的组合让智驾系统拥有了时空理解能力,从时间、空间上提高了感知和决策的精度,同时增强了系统的推演能力。更重要的一点,由于BEV架构下感知预测在同一空间进行,后续可以通过神经网络进行端到端优化。



2023年5月,马斯克在社交平台X上预告特斯拉FSDv12.0将升级为端到端AI方案,即能够将图像信息输入给神经网络,然后直接输出车辆控制指令如转向、加速、刹车等动作。


之后马斯克又表示,特斯拉正在开发FSD AI拼图的最后一块,也就是车辆控制。现在的FSD V12仅靠摄像头采集到的图像信息输入就能够分析并输出决策指令。



传统自动驾驶算法体系分为感知、决策、规划与控制,基于模块化完成自动驾驶任务,端到端则意味着几大模块拟合成一个神经网络。FSD V11写了大约30万行的C++代码,由于不再基于规则算法,到FSD V12只剩下3000多行。


眼下,端到端已成为自动驾驶领域最炙手可热的技术路线,小鹏、商汤绝影、鸿蒙智行、元戎启行等公司都纷纷跟上了特斯拉的脚步。


前不久小鹏发布了国内首个量产上车的端到端大模型:神经网络XNet+规控大模型XPlanner+大语言模型XBrain,其中XNet在动态BEV、静态BEV基础上融合了业内首个量产纯视觉2K占用网络。



而理想汽车智能驾驶副总裁郎咸朋说过,“我们对智驾核心的思路是端到端+大模型,就是系统1+系统2的理念,这个方式是更接近于人类驾驶的且更有前途的智驾方案。”数据闭环负责人贾鹏补充,BEV+Transformer使感知算法、预测博弈和规控形成一体。


毫无疑问,今年自动驾驶行业将有更多端到端的研发成果落地,作为人工智能领域具有国际影响力的盛会之一,本届世界人工智能大会(2024 WAIC)将以“智联世界”为主题,汇聚全球专家、政企代表、高校学者、投资人,共话AI发展的新机遇。


届时,特斯拉将展示FSD完全自动驾驶能力,今年3月,特斯拉推出了FSDV12.3版本,在北美市场已有100多万用户使用,该功能可以像人类一样不断学习迭代提升。马斯克之前预估,未来自动驾驶将比人类驾驶安全10倍。


图源:如祺出行

如祺出行将带来自动驾驶数据解决方案,通过全栈自研技术,优化从数据采集到处理的全流程,显著减少标注时间,提升迭代速度。其BEV+transformer技术路径结合多传感器融合,为自动驾驶的规模化量产和商业化落地提供强有力的支持,为智驾商业落地加速。


西井科技将携两大“智能化+新能源”产品亮相展会,全球首发自主研发智能物流机器人Well-Bot,以及曾入选“2023WAIC镇馆之宝”的全球首款智能换电无人驾驶商用车换电版Q-Truck。


图源:西井科技


易控智驾将在大会上发布其最新一代露天矿无人驾驶运输解决方案——“著山2.0”,作为“矿山无人驾驶引领者”,本次易控智驾即将发布的“著山2.0”主要从“场景泛化”和“各技术模块微观数据提升”等方面进行了技术提升。


此外,中国电信更是将智能驾驶技术带上了天空,M350 RTK无人机搭载先进的长航时电动小型垂直起降固定翼无人机系统,具有全程主动安全技术、多任务模块配置和高原性能等特点,以其高度的模块化和强大的平台化特性,展现出了极高的适用性和灵活性。


更多详情可到7月4日-7月7日上海WAIC2024现场,观众注册通道已开启,点击“阅读原文”立即注册。


全文完




作者:徐珊珊

编辑:张泽一

视觉设计:疏睿

责任编辑:张泽一


关于「新硅NewGeek」:我们以AI为圆心,追踪科技领域的方方面面,努力用最简单的方式阐述技术是如何改变世界。敬请关注。


新硅NewGeek
追踪每一个硅基生命的动向
 最新文章