首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

大模型没有标准答案，世界模型才是终极方案

汽车 2024-11-17 10:08 山东

从诸多大佬的表态来看，端到端+大模型可能就是自动驾驶技术路线的终局。

不过，正如各家的端到端千姿百态一样，大模型也没有标准答案。

兵无常势，水无常形。

在真实世界中，技术也是高度可重构的，随着时间的推移、新技术的出现，未来在不断改进，不断进化。

自2022年年底OpenAI发布大语言模型ChatGPT以后，生成式AI大模型逐渐演化出了两大分支：语言模型和世界模型。

语言模型继续在数字世界深耕，从单一的文本模态走向包含图片、视频在内的多模态，使其具备了文生图、看图说话、图生图、文生视频的能力，比较典型的代表有今年2月份发布的Sora和4月份发布的GPT4-o。

世界模型则从数字世界走向物理世界，从一维形式的数字智能走向三维形式的空间智能。

根据出生于北京、大成于美国的AI教母李飞飞的表述，空间智能指的是AI在三维空间和时间中以三维方式感知、推理和行动，并与现实世界进行交互。

两者的区别在于，大语言模型的基础是通过文本序列对世界进行一维表示。

具备图像理解和视频理解能力的多模态语言模型不过是将其它模态的数据进行Token化，然后硬塞进文本这个一维的序列表示中。

空间智能则是把三维当成了表达的核心。

换个角度思考一下它们的区别：语言本质上来说是一种纯粹生成的信号，世界上原本没有语言，说的人多了，也就成了语言。

不过，既然是纯粹生成，当然可以信口胡说，从而无视这个世界的物理规律。

但是，世界模型旨在理解并掌握物理规律，遵循物理规律跟物理世界产生交互，物理规律不可欺，自盘古开天辟地以来，3D世界及其物理规律就一直存在在那里。

从这种划分来看，在自动驾驶大模型的赛道上，小鹏汽车的全域大语言模型和理想汽车的视觉语言模型都是在文本之上叠加了图片和视频模态的语言模型，而蔚来汽车和特斯拉的世界模型则属于空间智能这一阵营。

树欲静而风不止。

智能电动汽车行业的玩家们除了要在产品、技术、渠道层面展开竞争，营销层面的拉高踩低、明吹暗讽也是一直暗流涌动。

在7月31日的智能驾驶系统发布会上，何小鹏暗怼理想汽车数据为王的观点。

何小鹏表示：如果有厂商说他们数据多，所以能力强，千万不要相信他。

因为在新的端到端范式之下，很多数据需要重新标注。

即便有了自动标注工具的帮助，数据标注也是一项非常非常繁重的工作，2022年夏天，马斯克在接受车友访谈时表示，特斯拉大约有1500名人类标注师！

不过，这并不意味着姿势不对，起来重睡，端到端来了，之前积累的很多精标BEV+OCC数据通通作废。

而是说，在规则+算法为主的分模块时代，车企的主要精力放在了增强感知能力上。

到了端到端时代，需要在BEV和占用空间之外做进一步的标注，比如与规划决策密切相关的自车和其它交通参与者的位姿、速度、加速度，这一类数据标注需要重新补齐，以构建预测与规划数据集。

端到端+大模型之后，大模型引入了新的数据标注需求。

在基于语言模型的自动驾驶大模型中，其输入是当前驾驶场景的图片，其输出是各类交通参与者、道路拓扑、交通信号标识的语义信息，这种模型不具备自回归特性，进行有监督学习，其训练需要海量的数据标注工作。

在基于世界模型的自动驾驶大模型中，其输入是当前摄像头数据，输出是下一个时间步长后的摄像头数据，这类自回归模型和GPT大语言模型依靠过去的Token预测下一个Token非常类似，其训练过程是无需数据标注的无监督学习。

无监督学习和有监督学习的核心区别就是不需要进行数据标注。

也就是说，世界模型可以从此告别劳动密集型的人工智能，应对比海量更海量的数据驱动新范式。

据说东北老铁在干仗前会先吼一句你瞅啥？湖南人则是人狠话不多，先干了再说。

语言模型就像东北大哥，先是一声吼，然后再决定出手不出手，只给出对当前驾驶场景的理解，输入给决策神经网络做参考，自己并不直接输出最终的决策结果-车辆的行驶轨迹。

世界模型就像湖南老表，相当干脆利索，直接出手给出车辆的行驶轨迹。

从理想汽车展示的VLM的能力可以看出，它给出的都是车道选择、是否减速这些中间层面的建议，并不直接给出车辆最终的行驶轨迹。

蔚来汽车的世界模型则是推演万千平行世界，从中选择最优解，在0.1秒之内生成216种可能的行驶轨迹，选择出最优的行驶轨迹，行驶轨迹可以直接给到下游的执行模块，控制车辆的驾驶行为。

直接给出行驶轨迹是世界模型的第1个优势，第2个优势则在于它可以通过海量的无监督学习训练出对驾驶场景的深度理解能力，实现了从感知到认知的能力跃升。

BEV+OCC的感知能力对安全、舒适、高效的完全自动驾驶是不够的。

一个很明显的例子就是，BEV和OCC不清楚当前的光照条件如何，天气情况怎么样，而光照和天气恰恰是可以影响自动驾驶车辆行驶的关键要素。

世界模型显然具备比BEV+OCC更加细力度的场景理解能力。

因为它的本质是建立对当下空间的深度理解能力，然后基于物理规律和当前世界，对未来时刻的世界做想象推演，为了准确推演下一时刻的世界，世界模型必须建立对当前世界的深度理解能力。

这种能力是通过对海量数据的无监督训练学习得来的，拿一个15-30秒的视频片段Clips，划分好时间刻度，将下一时刻的传感器数据作为世界模型的真值进行训练，通过一次又一次的刷题，世界模型就具备了场景的深度理解能力。

从世界模型的能力来看，它会消耗比语言模型更加多的算力，也许这才是采用4颗Orin的蔚来选择世界模型、采用两颗Orin的理想和小鹏选择语言模型的真正原因。

随着算力的升级，理想和小鹏从语言模型过渡到世界模型将会是一个大概率事件。

http://mp.weixin.qq.com/s?__biz=MzA4ODUzMTYyOA==&mid=2650819735&idx=1&sn=ce9d619a1750bed9a39b76cc8cb5b0d3

燃擎APP旗下深度报道栏目，林燃同学的自留地，联系邮箱1518383550@qq.com

最新文章

新势力自研芯片，大概是条不归路

全新魏牌蓝山，就是新势力第一端到端

《台州宣言》的站得高、看得远、抓得准：领克并入极氪上演新势力超级合体！

魏派蓝山为长城汽车高阶智驾代言的底层逻辑

字母标奥迪，是臭棋，还是大招？

在华扩产，丰田阳谋

大模型没有标准答案，世界模型才是终极方案

堆电池太Low，卷能耗才硬

一直以为高阶智驾只是高端车的灯塔，走近才发现燃烧着平权的火把

卢薛组合破局立新，上汽通用闪电反攻

增程大行其道，蔚来被架在火上烤？

新势力三匹最快黑马，就是理想问界和零跑

车企做芯片，这笔账该怎么算？

东风日产启辰：转型之后长出翅膀，狂卷价值飞得昂扬

点评吉利10月销量：均衡是主旋律，爆款已成习惯

十年饮冰，难凉热血，贾跃亭和他的FX真的来了

豪华平权看中国星，油车排面得东方曜

比亚迪智驾野心：不是高阶智驾逐渐下放，而是真正智驾平权

吉利终究还是向小型车市场下手了

吉利银河E5上市85天再度刷新销量纪录，530km版占比近一半，究竟有什么魔力？

都在夸端到端，到底有哪些缺点？

限时一口价9.98万起的逍客荣誉版：速度快，打得准，下手狠

端到端不是终点，大模型才是结局

比亚迪与丰田必有一战，日本市场就是腹心之战

郑梦九的牙山狮吼，李书福的台州宣言

造车两茫茫，轻图摆中央，谁不希望荷包鼓囊囊？

油车时代的三大件是长津湖，智驾时代的芯片就是上甘岭

极氪的后劲：打得快，上得去，铺得开

798的秦先卷带动后卷，659的MG5后浪拍翻前浪！

长城紫荆M100：魏建军奋力掷出的矛，扎透列强们挖空心思的盾

乐道Baas方案一旦普及，蔚来换电将彻底跑通，这可是比软件收费更猛的商业模式

把伊犁的草原湖泊都装心里，驭见212，越最真诚的野，做最自由的人

小鹏汽车：学习比亚迪，挑战比亚迪

端到端的内部矛盾，是一体化更犀利，还是分段式更锋芒？

给造车上强度，新势力卷造芯片

那些年，被魏建军怼过的合资车！

单纯看智驾，摄像头能不能消灭激光雷达？

大厂吃上大模型的热乎饭，用户是得给智能座舱点个赞

上市首月销量破万，吉利银河E5是如何俘获年轻家庭用户芳心的？

特斯拉想要干翻新势力，就得祭出核武器FSD

视觉方案是辟邪剑谱，激光雷达是葵花宝典

再见，成都车展！

百度智驾的落寞：一大早长起来的笋，没有钻破正午后才卷的壳

凯迪拉克如果真得撤，那谁陪你我夜笙歌？

六耳猕猴后是真大圣还是假大圣，真无图和轻地图到底谁更有前途？

就是因为All in 华为，活该赛力斯杀出黎明

中国车市不能没有上汽通用！

大六座SUV哪家强，蓝山是端到端的大魔王！

理想能不能杀进自动驾驶前三？

想当网红的夏一平，能不能让极越脱困

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉