媲美特斯拉,国产端到端自动驾驶震撼北京车展
文摘
科技
2024-04-25 20:54
河南
汽车行业变革的“上半场是电动化,下半场是智能化”,这个共识性的逻辑在汽车行业流行了好几年了,但是没有一家企业从电动化的上半场进入智能化的下半场,特斯拉是第一个。
近期特斯拉动作不断,在战略上对电动化和智能化次序进行调整,将智能化放在战略的首位,电动化放在第二位。所以搁置了Model 2的开发,转身将投入的重心押注FSD,全力投入算力中心和Robotaxi。这是一个划时代的动作信号,意味着汽车智能化的下半场开启。马斯克敢于做这么大战略转型动作,信心和底气来自于智能化技术的重大突破——FSD V12。FSD V12采用端到端模型,在解决corner case上进入了高效又经济的路径,端到端成为智驾从“可用”走向“好用”的正式拐点。在本次北京车展上,商汤绝影等国内企业的端到端模型也开始亮相和落地。端到端开辟了智驾的新赛道,带来了全新的自动驾驶技术架构,技术领先的玩家将会脱颖而出。众所周知,近年来智驾行业最重要的两个产品技术是无图和端到端。无图解决了“全国都能开”的问题,但是还没有解决智驾的核心问题,从感知到最终控制车辆的过程如何减少信息的损失,从而向用户提供 “拟人化”的智驾体验。从高速场景延伸到城区场景,路况的复杂程度指数级增长,各种corner case层出不穷。靠传统的工程师手写规则的研发方式成本高,效率又低,已经不能够适应从高速到城区的全域场景的开发需求。手写规则的研发方式遇到了天花板瓶颈,想要解决“全国都能开好”、给用户丝滑般的体验,就需要端到端。端到端是数据驱动,为解决城区复杂场景提供更加高效的技术路径。”端到端是智驾从“可用”走向“好用”的正式拐点。自此智驾进入正式晚宴大餐的阶段,而在此之前只能称之为晚餐前的甜食。商汤绝影2022年底提出首个感知决策一体化自动驾驶通用模型UniAD,但在当时行业内还不能正确理解端到端的技术价值,甚至还有争议,很多人并不认同这个方向。直到2023年,UniAD荣获2023年国际计算机视觉与模式识别会议(CVPR)最佳论文,越来越多的企业开始投身于端到端的研发。在大洋彼岸的特斯拉则是在2022年底才投入端到端的研发。特斯拉做端到端是一个非常偶然性的契机。马斯克收购推特之后,打算把一些算法工程师派驻到推特工作,其中一位计划被派驻的印度裔工程师为了保住在特斯拉的工作,向马斯克展示了如何通过神经网络学习人类驾驶行为,被说服了的马斯克开始投入端到端的研发。
2023年8月马斯克开启特斯拉FSD V12的直播测试,彻底点燃了端到端趋势,国内包括毫末智行、元戎启行等公司都在加速端到端技术落地,自研的新势力也大量招聘端到端AI人才布局。几乎所有的企业都意识到,端到端就是下一代最主流的技术路线。一种是分离式的端到端方案,感知和规控分别是两个神经网络。而且大部分企业都是将重心放在规控上,把基于规则和经验手写的规控算法用神经网络来代替。这种分离式的方案的技术门槛相对较低,虽然能够提升性能表现,但是分离式的两个网络存在很大的问题,信息会丢失,导致预测和决策上出现误差。另一种是从感知到规控完全是一体化的神经网络。将感知和规控整合到一个神经网络,使得整个计算过程中信息没有丢失,性能上限更高。同时技术门槛也非常高,目前国内能做到的比较少,商汤绝影可量产的UniAD算是比较稀缺的一个。和基于规则的传统智驾方案相比,端到端自动驾驶方案的核心优势是大模型强大的学习、思考和推理能力。在一系列高难度复杂的路况场景之下,商汤绝影的UniAD都可以像老司机一样应对自如。比如在从未途径过的乡村小路上,面对没有标志线和交通指示牌的道路依然可以行驶;在对向来车的情况下,前方有行人在跑步,在确保安全的情况下,搭载UniAD的测试车会“聪明”地先加速向左行驶绕开行人,而后快速向右打方向避开对向来车,顺利通行。好的智驾技术一定是to B to C的,即能带给C端用户丝滑的智驾体验,同时又能够帮助主机厂降本增效,而商汤绝影的UniAD正是这样的产品技术。
端到端开辟了智驾新赛道,智驾的整个研发和落地方式都发生根本性的变化。对企业的禀赋和资源提出了新的挑战。端到端的核心价值是感知信息的无损传递。从感知到决策再到控制的整个流程都在一个统一的模型系统中完成,实现从直接输入来自车辆传感器的数据到输出驾驶决策和控制指令的完整映射。而传统自动驾驶方案都是以人为手写规则为基础,感知、决策、规划等独立模块各自处理任务,感知信息在各模块传递过程中有丢失和误差,而且是累积性的,这就会影响系统的决策行为。即使采用感知和控两个神经网络的分离式端到端,也会出现感知信息的丢失。而采用感知规控一体化神经网络的商汤绝影UniAD,在反应能力和速度相比传统的智驾方案和分离式端到端是几何级的提升。实现这套“老司机”一样聪明的表现,商汤绝影UniAD无需高精地图,仅凭摄像头的视觉感知,就能帮助车企低成本快速开城。纯视觉和无高精地图就是UniAD与生俱来的天赋,它只需要导航信息就可以把车驾驶到目的地,天然就能帮助车企降低软硬件成本。同时基于数据驱动的研发方式,模型泛化能力强,效率更高,可以帮助车企带来更快的迭代效率。传统的智驾方案是基于规则的,研发方式主要是靠工程师手写规则。大部分企业都是靠堆工程师去竞争,堆的越多规则写的越好。所以也诞生了人海战术,谁投入的人力最多,谁就更能赢得竞争。但是智驾模型会随着数据的增加,自己打架,新增规则开始和原始规则相互冲突,造成新模型还没有老模型效果好的情况。而端到端的研发是基于数据驱动的,传统的堆人头的研发方式效果不大了。AI人才、算力、算法和数据,是端到端最核心的四要素。端到端和传统的智驾是两种不同的技术范畴,需要AI人才来主导。众所周知,无论新势力还是头部算法公司积累的人才都是传统的手写规则类型的,内部缺乏AI人才,需要从外部挖角AI人才来组建端到端的研发队伍。这就面临两个问题,一是AI人才队伍组建晚,大部分都是在特斯拉V12发布之后才转身组建的,这就导致研发的节奏慢;二是面临AI人才和传统研发人员的磨合问题,双方堆技术的理解和思维并不一样,如何协作是许多公司面临的重大问题。反而AI背景的公司,在端到端的研发上具有人才的优势,比如绝影。绝影背靠AI四小龙的商汤,本身在AI的人才储备上就名列头部梯队。而且绝影还不断地补充新的血液,从主机厂和Tier 1引进了大批工程化和产品方面的人才,形成了从底层算法、产品设计到工程化交付完整的人才体系,从而更好地从整车智能化角度,打造更满足客户需求和产品方案和交付质量。正是AI人才的优势使商汤绝影能够快速的理解像端到端这样的前沿技术,并且早早投入布局研发。端到端的模型训练是完全由数据驱动的,最核心的性能体验和泛化能力非常依赖于数据的规模和质量。因此,数据的采集效率和质量,也成为端到端竞争的关键因素。数据又分为两类,一类是现实世界的行车数据,这类数据质量高,包含的路况场景信息丰富和细致。但也面临着一些问题,大规模采集非常难,corner case之所以难以解决,是因为少见,需要大量路跑,就非常烧钱。所以就需要另一类数据,也就是仿真数据。数据这块和人才一样,也是AI背景的公司更有优势,毕竟玩数据训练是AI公司们最擅长的。商汤绝影采用现实世界数据和仿真数据相辅相成的方式。绝影不仅有自己的路测数据,也通过先进的世界模型生成海量的仿真场景,来反哺大模型的训练,从而不会受制于路测数据数量和质量的限制。同时,绝影在数据能力上向合作方赋能,在和主机厂的合作中,向主机厂提供研发工具链和基础模型,助力主机厂利用自己的数据进行模型训练。端到端同样遵循AI行业的Scaling Law定律,当数据和算力足够多、足够大,就会产生智能涌现的能力。端到端模型的训练非常消耗算力,这也是特斯拉将智驾研发预算的三分之二投入到数据中心上的原因。国内许多企业也开始加大算力投入,但是时间节点上晚了。一是由于众所周知的原因,现在显卡不好买了;二是成本和周期都面临很大挑战,很难快速形成竞争力。而像商汤这样的AI公司,早就认知到AI的发展需要大规模算力支撑,在2018年就开始着手大算力布局,如今形成了对智能汽车业务的强大反哺和支持。目前,商汤的算力基础设施SenseCore商汤大装置,共有12000P的算力,且今年还会持续增长。事实上目前绝影投入智驾模型训练的算力,只占到整个大装置算力的五分之一,不仅有着足够的空间来支撑自己的大模型训练,也能为主机厂和Tier 1提供丰沛的大模型训练算力支持。虽然只是五分之一,但对比小鹏号称中国最大智算中心600P,吉利星睿智算中心81P,长安智算中心142P,超2000P的商汤智驾模型算力中心也是亚洲最大的智算中心。智驾开始进入数据+算力的“暴力美学”催化的时代,这将是一个硬性门槛。同时也意味着许多企业玩不起了。最后是算法的竞争。在算法高频变化的智驾领域,一个企业想要做出领先的算法方案,除了技术能力和投入之外,非常核心的点是前瞻性的预判。商汤凭借自己的前瞻性预判能力,一直敏锐的进行技术布局和投入。早在2016年就发展以视觉为主的自动驾驶方案。2022年提出的环视感知算法BEVFormer++ 还获得Waymo挑战赛冠军,相比基线方法,BEVFormer++获得了超过60%的性能提升,同时在nuScenes检测数据集的三维目标检测任务上取得了56.9% NDS 的成绩,较历史最好成绩提升9个点;端到端UniAD的提出,也展现了商汤对未来自动驾驶技术趋势的前瞻预判能力。过去十年智驾经历了三个阶段,第一个阶段是硬件为主的ADAS一体机时代,第二个阶段是手写软件算法的时代,现在将进入第三个阶段以数据驱动的时代。在数据驱动的时代,商汤绝影凭借自身的AI能力率先突围,推出了端到端的智驾方案UniAD。但是故事远没有结束,商汤绝影秉持量产一代、预研一代的策略,积极布局端到端的下一代多模态大模型——DriveAGI,实现从数据驱动向认知驱动进化。DriveAGI基于多模态大模型打造,可以通过自然语言阐述决策行为,进一步提升智能驾驶的可解释性和可交互性。智驾行业的发展远未定型,随着AGI时代的到来,行业的竞争格局有望被重新定义,华为、商汤绝影这些擅长AI能力的,最终可能会成为跑得更高更远的玩家。