世界模型”究竟是什么？会成为人工智能的下一个前沿领域吗？

学术 2024-11-01 18:12 北京

世界模型的灵感源于人类自然形成的世界心智模型。我们通过感官获取的抽象信息在大脑中被转化为对周围世界的具象理解；这些“模型”早在人类开始研究AI之前就已存在。基于这些模型，我们的大脑对世界进行预测，从而影响我们的感知和行动。

尽管这一概念令人振奋，但仍有许多技术挑战亟待解决。与目前用于生成式模型的计算量相比，训练和运行世界模型需要庞大的算力。此外，世界模型也存在幻觉问题。

近年来，人工智能（AI）领域涌现出一种被称为“世界模型”（World Models）或“世界模拟器”的新概念，被一些行内人士视为AI的下一个重大前沿。AI领域的领军人物李飞飞创立的World Labs（世界实验室）已筹集了2.3亿美元资金，致力于构建“大型世界模型”（LWM）；与此同时，谷歌DeepMind也聘请了OpenAI视频生成器Sora的创造者之一，参与“世界模拟器”的研究。

什么是“世界模型”？近日，科技媒体TechCrunch的高级记者凯尔·威格斯（Kyle Wiggers）撰文，梳理了关于“世界模型”的一系列问题，以下是澎湃科技（www.thepaper.cn）编译。

什么是世界模型？

世界模型的灵感源于人类自然形成的世界心智模型。我们通过感官获取的抽象信息在大脑中被转化为对周围世界的具象理解；这些“模型”早在人类开始研究AI之前就已存在。基于这些模型，我们的大脑对世界进行预测，从而影响我们的感知和行动。

AI研究人员大卫·哈（David Ha）和尤尔根·施米德胡伯（Jürgen Schmidhuber）以棒球击球手为例，论述了击球手只有几毫秒的时间决定如何挥棒，这比视觉信号传递到大脑的时间还短。他们之所以能击中时速160公里的快速球，是因为他们能本能地预测球的位置。

两位研究人员写道：“对于职业选手来说，这一切都是在潜意识中完成的。他们的肌肉会反射性地在正确的时间和位置挥棒，与其内在心智模型的预测一致。他们可以快速根据对未来的预测而采取行动，但无需有意识地推演可能的未来情景以制定计划。”

正是这种世界心智模型的潜意识推理能力，让一些科技研究者认为，世界模型是实现人类级别智能的前提。

世界模型有哪些应用潜力？

尽管这个概念已经存在了几十年，世界模型最近因其在生成式视频领域的应用而备受关注。目前，大多数AI生成的视频都会陷入“恐怖谷”现象，观看时间稍长就会出现画面崩坏，如四肢扭曲或融合。

传统的生成式模型可能能够准确预测篮球会弹跳，但并不真正理解其中的原因，就像大型语言模型实际上是基于神经网络的概率推理，给出最可能符合读者预期的答案，而非真正理解词语和短语背后的意义。然而，具有基本物理认知的世界模型将更善于展现“篮球的真实弹跳”。

为了实现这种洞察力，世界模型需要在大量的照片、音频、视频和文本数据上进行训练，旨在创建对世界运作方式的内部表征，并具备推理行动后果的能力。

Snap前AI主管、现Higgsfield公司CEO亚历克斯·马什拉博夫（Alex Mashrabov）表示：“观众期望他们观看的世界与现实相似。如果一根羽毛以铁砧的重量下落，或者保龄球飞上数百英尺的高空，这会让观众出戏。有了强大的世界模型，创作者就无需定义每个物体的运动方式——这既繁琐又低效——因为模型将能够自行理解原理。”

然而，改进视频生成只是世界模型的冰山一角。包括Meta首席AI科学家杨立昆（Yann LeCun）在内的研究人员认为，这些模型未来可用于数字和物理领域的复杂预测和规划。

在今年早些时候的一次演讲中，杨立昆描述了世界模型如何通过推理来实现目标。一个具有基础“世界”表示（例如一段脏房间的视频）的模型，给定一个目标（干净的房间），可以推导出一系列行动（使用吸尘器、清洗餐具、倒垃圾）来实现目标。这并非因为它观察到了这种模式，而是因为它在更深层次上理解了事物如何从脏到净。

“我们需要能够理解世界的机器；具备记忆、直觉和常识的机器——能够像人类一样推理和规划的机器，”杨立昆表示。“尽管你可能听到一些最热情之人的吹嘘，但当前的人工智能系统并不具备这些能力。”

虽然杨立昆估计我们距离他设想的世界模型至少还有十年的时间，但当今的世界模型已经显示出其作为基本物理模拟器的前景。

OpenAI 在一篇博客中认为 Sora 是一个世界模型，可以模拟画家在画布上留下画笔笔触等动作。像 Sora 这样的模型——以及 Sora 本身——也可以有效地模拟视频游戏。例如，Sora 可以渲染类似 Minecraft 的UI和游戏世界。

World Labs 联合创始人贾斯汀·约翰逊（Justin Johnson）在a16z播客的一集中表示，未来世界模型可能能够按需生成3D世界，用于游戏、虚拟摄影等。

“我们已经有能力创建虚拟的交互式世界，但这需要花费数亿美元和大量的开发时间，”约翰逊表示，“‘世界模型’不仅可以让用户获得图片或视频片段，还可以获得一个模拟效果完备、充满活力的交互式3D世界。”

实现世界模型面临哪些技术挑战？

尽管这一概念令人振奋，但仍有许多技术挑战亟待解决。与目前用于生成式模型的计算量相比，训练和运行世界模型需要庞大的算力。虽然一些最新的语言模型可以在现代智能手机上运行，但Sora（多少算一种早期世界模型）需要数千个GPU来训练和运行，尤其是在其使用变得普及的情况下。

世界模型和所有AI模型一样，也会产生幻觉，并内化训练数据中的偏见。一个主要由欧洲城市晴天视频训练的世界模型，可能难以理解或正确描绘韩国城市的雪景。

亚历克斯·马什拉博夫指出，训练数据的匮乏可能会加剧这些问题。“我们已经看到模型在生成某种类型或种族的人物时受到限制，”他说。“世界模型的训练数据必须足够广泛，以涵盖多样化的情景，同时也要足够具体，使AI能够深入理解这些情景的细微差别。”

AI初创公司Runway的CEO克里斯托瓦尔·瓦伦苏埃拉（Cristóbal Valenzuela）在最近的一篇文章中表示，数据和工程问题阻碍了当前模型准确捕捉世界中生物（如人类和动物）行为的能力。“模型需要生成一致的环境地图，”他说，“并具备在这些环境中导航和互动的能力。”

世界模型能为具身智能提供技术基础

如果所有主要障碍都被克服，亚历克斯·马什拉博夫认为，世界模型可以“更稳定地”将AI与现实世界连接起来，不仅在虚拟世界生成方面，而且也在机器人技术和AI决策方面取得突破。

这也可能催生更强大的机器人。如今的机器人在功能上受到限制，因为它们缺乏对周围现实世界（或自身身体）的意识。世界模型可以为它们提供这种意识，至少在一定程度上可以。

“有了先进的世界模型，AI可以对其所处的任何情境形成自身的理解，”他说，“并开始推理出可能的解决方案。”

世界模型能够为人工智能提供理解真实的三维物理世界的能力，使人形机器人真正感知真实世界，对具身智能的实现具有重大意义。

本文来自澎湃新闻

真实的世界或许没有那么简单

http://mp.weixin.qq.com/s?__biz=MzA4OTYwNzk0NA==&mid=2649729037&idx=1&sn=f89ba8cd7580fe4da3430a93b13b1fa4

人机与认知实验室

人机交互与认知工程实验室联系方式：twhlw@163.com

最新文章

美国国会在议人工智能法案清单整理

人类的意识更偏势态知感，而不是态势感知

如何实现势态知感是智能系统的关键

人形机器人的关键在于态势感知与势态知感的平衡

Science:如何理解大模型的智能本质

如何设计人机之间态结构、势结构、感结构和知结构的符号与形式化系统

态结构、势结构、感结构和知结构

人与AI中的时间、空间常常不同

牛津大学报告：《无法被AI取代的力量：人类认知的理论驱动力》

为什么用当前的数学构建不了真实的世界模型

中美南海对峙：3艘052紧急交付海军，舰上270名船厂员工拒绝撤离

打破“孤独天才”的神话: 还原一个善于学习与合作的爱因斯坦

触及通用人工智能天花板的三个小问题

决策包括定量建模计算与定性建模算计

智能教育不同于智能学习

智能教育不仅仅是机器的智能

智能教育的关键在于人、机、环境的分权及集权

关于建构新型人机环境系统智能教育平台的思考

首发 | 《欧盟人工智能法案》解读

人工智能辅助决策的三大挑战

计算是态势感知，算计是势态知感

牛顿的猫洞与科学家的成长

人机之间信息的结构与界面滑移

人机之间信息的结构可以有不同的表征

人机边界层的滑移条件

人机界面是由数据与知识、事实与价值联合驱动的

态推理、势推理、感推理、知推理不同

如何设计人机环境系统智能的符号与形式化系统

如何理解AGI是具备普通人类所有认知能力的通用 AI

通用人工智能的现实困境

如何设计一套智能的符号与形式化系统

智能的符号化与形式化不同于人工智能的符号化与形式化

从人-物到人-机再到人-AI

未来工程教育：人工智能将转变传统师生关系

人机混合意识与人类意识不同

人类具有非物理性智能吗？

人机的功能与能力边界

人机界面中的数据、信息、知识、算法分层

人机界面中的语法、语义、语用层次

在态势感知中如何用势控制态

态势感知中的态障、势障、感障、知障

在态势感知中如何克服态障、势障、感障、知障？

别不好意思承认：我们都已经是人机混合体

群体智能中各智能体的期望常常不一致

现在的AI仍只是人类智能中极小的一部分

别不好意思承认：我们都已经是人机混合体

推理能力的提升需要跨模态、多任务、知识注入等方面的创新和设计

如何通过训练达成学习推理的scaling law

计算机专业与心理学专业的人机交互有何不同

人工智能中的“剑”与“桥”

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉