首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

中国版Wayve决战端到端，等待数据的大力出奇迹

汽车 2024-06-07 10:00 广东

作者 | 王博

编辑 | 德新

神似Wayve

「人工智能的定律只有一个，就是规模定律（Scaling Law），大力出奇迹。端到端是描述方式，更应该去考虑如何去生产更多的自动驾驶合适的数据，来喂养更大更合适的模型，取得更好效果。」

这段话，出自毫末智行CEO顾维灏。

近日，顾在2024未来汽车先行者大会上，提到了他认为的端到端竞争的关键点。

端到端的出现，让自动驾驶今年再获资本热捧。

不久前，自动驾驶圈刚曝出一轮10.5亿美金的融资消息，软银领投，英伟达、微软跟投，获投方是一家名为Wayve的英国自动驾驶公司。

这是软银在自动驾驶领域的最新一笔投资，之前其已在Cruise、Stack AV等公司身上花掉数十亿美金。

Wayve自2017年成立至今，推出的核心产品是GAIA-1、LINGO-2两个自动驾驶大模型，主打端到端大模型。

这一点，和毫末在端到端的布局颇为相像。

毫末已搭建自监督感知大模型、自监督认知大模型，并开始进行端到端训练等，虽然命名方式不同，但与Wayve的思考路径相似。

自动驾驶将大模型引入后，解题思路完全改变。

从以自动驾驶工程师手写规则，指导车辆如何驾驶为主，切换到以AI来答卷，让神经网络大模型决定如何开车，程序员终于可以「少掉头发」。

10亿美金融资，让外人见识到自动驾驶大模型的受关注程度。而其实，在智驾标杆特斯拉和自动驾驶的热土中国公司毫末这里，大模型上车已经初试牛刀，胜出希望寄托在数据的大力出奇迹。

换种思路，解决头疼问题

大模型概念兴起于NLP领域，直到ChatGPT出现后，GPT这一全新的训练范式迅速被自动驾驶从业者认同，行业上下如获至宝。

在GPT被引入之前，2004年美国DARPA那场自动驾驶比赛之后的十多年里，研发模式仍与当年的DAPRA如出一辙。

以识别车道线为例，传统操作步骤是，先采集车道线数据，然后进行人工标注，再把标注完的数据训练成一个模型，最后把模型部署上车，再使用规则控制车辆做出决策。

这可以称之为小模型加手工规则。

GPT被引入自动驾驶后，研发模式焕然一新。

在大模型领域一早布局的Wayve，成立于2017年，直接跳过了传统的自动驾驶研发模式，瞄准大模型发力。

只不过，业内最先看到的是特斯拉。

在去年6月举行的CVPR 2023上，特斯拉Autopilot软件总监Ashok Elluswamy透露，团队正在训练一个更通用的世界模型。

特斯拉引入大模型，一部分原因在于，传统的自动驾驶研发模式，在城市场景中遇到了困难。

仍以车道线场景为例，实时预测车道线一度是自动驾驶头疼的问题。“车道是三维数据，会分叉、合并，很难建模。”Ashok Elluswamy解释道。

特斯拉的做法是，基于生成式大模型，采用自回归Transformer，将车道令牌化，一次一个令牌地对车道进行预测，对分叉点、合并点进行预测。

其实，早于Ashok Elluswamy演讲前一天，Wayve已在自家官方博客上发布GAIA-1，一个用于自动驾驶的生成式大模型。

几个月后，这一模型扩展至90亿参数，Wayve开始能够生成逼真的驾驶场景视频，展示自动驾驶“在各种情境的反应”，且可以更好地预测未来事件。

今年4月，在NVDIA GTC的舞台上，Wayve CEO Alex Kendall演讲时表示，「自动驾驶行业花费了太多时间聚焦在复杂解法上，比如手动编码规则和高精地图。」

他列出几个自动驾驶误区，第一个便是，以为解决感知问题就搞定了自动驾驶。

“要想创造一种让人们感到高兴并信任的体验，关键不仅仅是能够看到世界。真正的问题在于决策，多智能体复杂推理，才是自动驾驶问题的核心。”他说。

软银领投的那笔10.5亿美金，也在不久后被官宣，Wayve开始被更多自动驾驶领域的从业者认识和关注。

中国版Wayve，入局端到端

将大模型引入自动驾驶，Wayve同行者不止有特斯拉，还有中国的自动驾驶公司。

在国内，大家较早听闻大模型消息的玩家中，其中一家是开头提到的毫末。

毫末发布的DriveGPT这一生成式大模型，可用于自动驾驶的感知、决策任务。

开启GPT时刻之前，毫末最初采用的是encoder+decoder模型，输入一串图片，模型会输出一串自动驾驶决策动作。

后来，这家公司还采用基于encoder自编码的训练方式，输入感知结果，mask司机的驾驶行为，让系统猜司机的驾驶行为。

ChatGPT出现后，毫末很快发现GPT的高效能力，就此入局。

生成式大模型有一大任务，可以归纳为：“建立了一个神经网络，以过去或其他输入为条件，预测未来。”

不同的是，Wayve和特斯拉输入的是视频序列，也就是一段过去的视频，神经网络会预测未来可能发生的事情，生成一段预测的视频序列。

毫末生成的是BEV序列，向大模型输入一段过去10秒的感知场景，大模型会生成一段未来2 - 3秒的场景。

无论各家输入的是视频还是BEV序列，逻辑是相同的。

这一方式，与人类司机驾驶根据道路状况做出驾驶决的做法颇为相似。它一改传统的手写规则，转而让神经网络决定如何开车，相当于借助大模型短暂预测了未来。

生成式大模型可以用于自动驾驶认知决策，这是一个很好的开始。

同时，毫末也在训练基于自监督的通用感知大模型，并最终希望将感知大模型、认知大模型打通，并引入大语言模型LLM来获得世界知识，实现端到端训练。

发布GAIA-1几个月后，2023年9月，Wayve又在自家官方博客上发文，介绍了LINGO-1，一款开环的Driving Commentator C（自动驾驶评论员），这是一个基于视觉、语言、动作的自动驾驶交互模型，可以用于解释自动驾驶系统的行为逻辑。

今年4月， Wayve推出的LINGO-2，为自动驾驶体验开辟全新的控制和定制维度，也是一个在公共道路上进行测试的视觉语言动作模型（VLAM）。这一多模态大模型被用于增加决策的可解释性。

在Wayve的官方视频中，用户可以和车辆进行对话，对行驶路线等问题进行提问，LINGO-2会给出回应，并能实时解释每一项决策背后的过程。

毫末的做法与之相似。

他们意识到，在构建对真实物理世界的4D感知基础上，通过多模态大模型，实现文、图、视频多模态信息的整合，从而完成4D向量空间到语义空间的对齐，实现跟人类一样的“识别万物”的能力。

与Wavye类似，毫末也尝试引入大语言模型LLM，并利用自动驾驶领域数据finetune后，使得LLM成为一个老司机，通过与LLM交互，能够获取丰富的世界知识，甚至能提出决策规划建议。

奔赴端到端，解决后续上车问题

大模型时代，人们见证了初出茅庐ChatGPT 3.0，很快又见识到更强的文生视频Sora，再到最近炸场的GPT-4o。

这些产品所采用的新技术，为自动驾驶持续输送思想的养料。

从Wayve和毫末等公司的实践看，大家都在遵循着大模型的思路，但仍会分阶段地推进，比如会推出解决某个模块任务大模型。

在探索自动驾驶最为积极的中国，玩家们会单独布局面向感知的大模型，然后布局用于驾驶决策的规控大模型。虽然这一过程中，某些地方还会用到CNN卷积神经网络，但整体会以Transformer为主。

所以，Wayve推出GAIA-1也好，LINGO-2也好，这些大模型也会进行统一，成为端到端大模型。

而毫末发布的DriveGPT，同样是将自动驾驶生成式大模型、多模态大模型、LLM等统一起来后的产物。

之后，就是自动驾驶大模型上车，将大模型从云端搬到车端的过程。

鉴于人工智能大模型的竞赛，是涉及算法、数据、算力的挑战，自动驾驶的竞争也会围绕这些维度展开。

进入端到端的大门，仅仅是第一步，紧接着就是数据的比拼。

正如顾维灏所说，自动驾驶经历了硬件驱动、软件驱动，现在正进入数据驱动时代。“数据驱动有一个很典型的特征就是它是大模型的，更多通过模型来实现整个的过程。“

更多的数据，会让自动驾驶玩家们开始比拼算力，囤积成千上万块GPU，从而在云端完成自动驾驶大模型的训练。还要不断进行训练投入，传闻ChatGPT训练一次，需要花费1200万美金。自动驾驶的训练费用自然也不会少。

接下来就是大模型上车。

按照毫末的说法，动辄千亿级参数的大模型，要在保持效果接近的前提下，缩小到亿级才可能上车。

从量产层面看，目前仅有行业标杆特斯拉推出FSD V12，宣布将城市街道驾驶堆栈升级为端到端神经网络，经过数百万个视频训练，取代了30多万行代码，可以视为端到端落地的最新动向。

从一些国内自动驾驶公司的计划看，预计在今年下半年，更多的端到端自动驾驶方案也将量产上车。

资本正在为自动驾驶大模型定价，相信Wayve融资仅是一个开始。在国内，毫末等Wayve的同行者，也许很快会获得资本的押注。毕竟端到端大模型这条路，现在看是最有希望抵达自动驾驶彼岸的方向。

参考文献：

Wayve CEO干货分享：自动驾驶已浪费太多时间

VLAM会是自动驾驶的黑盒解药吗？

Wayve：从源头讲起，如何实现以对象为中心的自监督感知方法？

特斯拉自动驾驶的“通用世界模型”和视频生成技术｜Ashok23年CVPR主题演讲

Scaling GAIA-1: 9-billion parameter generative world model for autonomous driving

Wayve - NeRF 为自动驾驶构建城市规模的神经辐射场

“大模型本质就是两个文件！”特斯拉前AI总监爆火LLM科普

毫末智行自动驾驶公开课（第二期）：数据、大算力、大模型驱动下的自动驾驶

http://mp.weixin.qq.com/s?__biz=MzkwNjMzNzcxNQ==&mid=2247495672&idx=1&sn=f229b8c55f5bba576bec3164a9c643d9

HiEV大蒜粒车研所

让一部分人更懂智能汽车。

最新文章

2024收官之战：车展向下，智驾向上

端到端大模型席卷广州车展，智驾行业的一次技术大跃迁

华为的纯视觉版，ADS SE卖得怎么样？| HiEV数读

理想「端到端+VLM」全量推送，把智驾又卷上了新高度

HiEV独家 | 比亚迪智驾变阵：整合自研，冲刺量产，目标让10万级也搭NOA

四维图新还有机会吗？

中美无人驾驶竞速赛，萝卜快跑特斯拉谁更快？

自研芯片三国杀，头部智驾新战场，蔚小理谁强？

迈向千T算力时代，最强智驾芯片Thor量产前夜

数亿元C轮融资到手，易航智能冲入高阶智驾决赛圈

乐道L60、MONA M03、理想L6，蔚小理围剿「特斯拉」

蔚来如何算加电网络「大账」？

极越造车2.0：01销量回暖，07杀出血路，ASD抢跑FSD

背靠大众，「半价Model 3」卖爆，小鹏走出低谷

Pro序列第二款车上市，上汽大众的智能化之路

在大湾区，看到通信、感知与显示技术的未来

SuperDrive首试：比肩第一梯队，地平线「饱和式投入」打造高阶方案交卷

用华为智驾，开启MPV的下半场

从向海外学习，到技术出海，中国零部件公司需要几步？

魏牌蓝山智驾版，长城的智能化「大反攻」

史上最强座舱AI芯登场，座舱「百模大战」爆发前夜

腾势Z9GT预售爆单，比亚迪易三方为什么敢称「全球唯一的整车智控平台」？

国内智能车零部件头号玩家引望：年出货300万套，估值1150亿

「看不见摸不着」的NVH，理想的秘密武器

智能底盘大热，解析华为途灵底盘，问界这回可以硬气了吗？

端到端时代，理想智驾如何换道超车？

享界S9 + 问界M9，华为智选车的高端局

Robotaxi火了，中国智驾公司冲击全球无人车第一股

卡车也迎专属NOA，MAXIEYE成立商用车子品牌阡途

蔚来智驾的大模型之路：自研芯片 + 世界模型 + 群体智能

奔赴端到端时代：智驾如果还走原来的路，就到不了ChatGPT时刻

小米汽车One More Thing登场：SU7 Ultra 零百加速不到2秒，十年成为纽北最速的仔

座舱之王高通，抢占中阶智驾市场

半价理想，零跑将6座SUV车市杀成血海

EE架构大跃进：特斯拉、小鹏引领舱驾融合，从域控融合走向单SoC

魏建军亲测智驾第二季：长城全场景NOA挑战重庆

领克杀入纯电赛道：年轻人想要一台什么样的大电轿？

稳了？L3规模化落地在即，激光雷达公司成首批赢家

MONA来了！小鹏子品牌首车定名M03，20万内空间智能颜值都要能打

中国版Wayve决战端到端，等待数据的大力出奇迹

百公里2.9L油背后的超级技术：比亚迪第五代DM，最强插混绞杀合资家轿

何小鹏：未来一年半智驾迎30倍提升，大模型时代难有Tier 1

跨域计算芯片，一把被忽视的汽车降本尖刀

乐道的家庭市场，蔚来的荣誉之战

单季出货超12万台，激光雷达开始挣钱养家

内卷、降价、出海，博世财报中的中国车市

吴新宙带队的英伟达智驾：先追平第一梯队，2026年量产L3

问界新M5交付，「975」组合站稳中国豪华智电定位

车载GPT爆红前夜：一场巨头竞逐的游戏

极氪速度：70亿市值登陆纽交所，这家纯电豪华品牌开启弹射模式

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉