李飞飞空间智能上新！一张图就可以生成3D世界，能像玩游戏一样互动

科技 2024-12-03 20:27 北京

生成式AI迈入下一阶段。

编译 | 依婷

编辑 | 漠影

智东西12月3日消息，今日凌晨，由“AI教母”李飞飞联合创立并担任CEO的AI初创公司World Labs对外公布了他们的首个成果，3D世界生成模型，一个可以让用户从单张图片生成3D世界的AI系统。

World Labs的3D世界生成模型通过预测3D场景，实现了更高的可控性和一致性。

和市面上大多数将图片转化为3D的产品不同，使用该模型生成的3D场景，用户可以与之互动。比如，用户可以模拟相机进行对焦或滑动变焦，还可以在浏览器中与之实时交互，并能为场景添加交互效果和动画。

World Labs称，这是他们迈向空间智能的第一步。

01.

生成的3D场景支持实时交互
可模拟相机对焦

1、用户可以在浏览器里与生成的3D场景交互

根据World Labs博客介绍，用户只需要提交一张图片，不论是由AI生成的图像，还是日常生活中拍摄的照片，3D世界生成模型都能根据该图片生成一个3D场景，且风格和原始图片保持一致。

▲左图为输入的图片，右图为模型生成的3D场景。

同时，和市面上将图片转化为3D建模或环境的产品不同，World Labs的3D世界生成模型生成的3D场景更像是开放世界游戏里的画面，它允许用户通过操作键盘、鼠标和场景交互，比如摁下“D”键向右移动，点击并划动鼠标转换视角。

▲通过键盘和鼠标在生成的3D场景里移动、转换视角。

2、像使用相机一样对生成的3D场景对焦、变焦

生成3D场景后，模型会使用虚拟相机在浏览器中实时渲染。用户在使用时通过拖动滑块精准控制虚拟相机，可实现艺术摄影效果。

比如，用户可以通过拖动滑块来模拟拍照时候的对焦，从而渲染出更清晰或模糊的画面。

▲通过移动滑块转换由远及近的焦距。

另外，在World Labs生成的3D场景中，用户还可以使用滑动变焦来调整虚拟相机的视野范围，从而获得不一样的视觉效果。

▲通过移动滑块可以模拟滑动变焦效果。

3、为生成的3D场景添加交互和动画效果

World Labs在博客中介绍，与大多数模型预测像素不同，他们预测3D场景，这么做有三个明显的优势：

连续性（Persistent Reality）：模型生成的3D场景将一直存在，转换视角和移动都不会对已生成的场景产生影响；

实时控制（Real-Time Control）：用户可以在场景中自由、实时移动，能凑近去看花的经络，也能抬头远望太空星云；

正确的几何结构（Correct Geometry）：模型生成的3D场景遵循3D几何的基本物理规律，有立体感和纵深感。

正因为这些优势，用户可以在生成的3D场景中构建交互式效果。如选择声纳（Sonar）效果后再点击场景中的任一区域，该区域会出现对应效果。

▲对脉动、声纳、聚光灯三种交互效果的演示。

还可以为场景制作动画效果，比如选择波纹动态效果，整个画面就会像波纹一样动起来。

▲对波纹动画效果的演示。

02.

内容创作者已开始试用
或将改变电影游戏制作方式

World Labs团队认为，3D世界生成模型将改变电影、游戏、模拟器和其它数字媒体的制作方式。他们展示了两个应用案例。

1、像带上VR眼镜一样游览世界名画

World Labs的模型可以根据梵高等世界知名画家的画作生成一个画中世界，让用户以全新的方式感受艺术作品。

▲模型根据梵高的画作《夜晚的咖啡馆露台》生成的3D场景。

2、与现有AI工具结合使用，加速内容创作

该3D世界生成模型可以与现有的其它AI工具结合使用，为内容创作者提供便利。比如，用户可以先使用文生图模型生成图像，再从生成的图像创建3D世界。虽然不同的文生图模型有不同的风格，生成的3D场景依然可以适配这些风格。

World Labs给出了一个示例。他们给四个不同的文生图模型输入了同一组提示词，再根据生成的不同风格的图像创建了对应风格的3D场景。

提示词为：A vibrant cartoon-style teenager's bedroom with a bed covered in colorful blankets, a cluttered desk with a computer, posters on the walls, and scattered sports gear. A guitar leans against the wall, and a cozy, patterned rug is in the center. Light from a window adds a warm, youthful vibe to the room.（一间充满活力的卡通风格青少年卧室，床上铺着五颜六色的毯子，杂乱的书桌上放着一台电脑，墙上贴着海报，运动装备散落。一把吉他靠在墙上，中间是一块舒适的图案地毯。窗外的光线为房间增添了温暖、年轻的氛围。）

▲3D世界生成模型在同一主题、不同风格的AI图片中的表现。

一些创作者已经开始内测他们的模型了。

▲创作者Eric Solorio通过3D世界生成模型给画面加入角色并精确地调度虚拟相机完成“拍摄”。

▲创作者Brittani Natali将3D世界生成模型与Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具结合使用，通过三支短片传递了不同情绪。

当然，目前该模型还存在一些不足，例如生成的3D场景可探索区域有限，在移动一小段距离后，它就会提示已达到边界；某些场景会出现渲染错误，不同的物体以不自然的方式融合，成为了一团色块。

World Labs表示，以上成果还偏早期，他们正在努力提高生成世界的大小和拟真度，也正在试验用户与它们交互的新方式。

03.

公司成立不到三个月
估值超过10亿美元

World Labs于今年9月13日正式宣布成立，是一家空间智能AI公司，试图构建大型世界模型（LWM）来感知、生成3D世界并与之交互。前谷歌云AI负责人、斯坦福大学教授李飞飞是该公司的联合创始人兼CEO。

▲李飞飞在AI Optimist Club发表演讲（图源：福布斯）

World Labs在博客中写道：“我们的目标是将AI模型从像素的2D平面提升到完整的3D世界，赋予它们与我们一样丰富的空间智能。”

据《福布斯》9月19日报道，成立不到一个星期，World Labs的估值就已经超过10亿美元。

彼时，World Labs筹集了2.3亿美元的风投资金，投资方包括Andreessen Horowitz（a16z）、NEA和Radical Ventures在内的美国知名风投机构，以及Salesforce公司创始人兼CEO Marc Benioff和英伟达（Nvidia）旗下投资部门NVenture。

该公司预计到2025年发布首批产品，应用范围包括游戏、机器人以及其他潜在行业。

04.

结语：空间智能
生成式AI迈入下一阶段

从自然语言到图片、视频、3D建模，再到如今的空间计算，两年时间，生成式AI正在以极快的速度认知、理解、模拟、生成人类所存在的物理世界。

在即将到来的2025年，由World Labs开启的空间智能AI竞争或将重现今年各大AI视频生成应用厂商的盛况，生成式AI也有可能由此迈入下一阶段。

来源：World Labs、《福布斯》

GenAICon 2024上海站预告

智东西

智能产业新媒体！智东西专注报道人工智能主导的前沿技术发展，和技术应用带来的千行百业产业升级。聚焦智能变革，服务产业升级。

最新文章

OpenAI最强推理模型o3发布！AGI测试能力暴涨，最难数学测试分数碾压同行

专用、类人形、人形全面布局：普渡机器人解答了具身智能商业化的终极命题

比小米便宜，比Meta高清，国内首款量产AI眼镜999元开售

AI创企暴雷！90后女创始人欺诈被捕：涉案7000万，或面临40年刑期

苹果AI落地中国生变：正接触腾讯和字节，谁还有机会

深圳重磅AI利好！5亿元训力券，1亿元模型券，重奖爆款智能硬件产品

一口气融728亿！AI融资新纪录，比OpenAI还吸金，华人联合创办

黄仁勋深度专访：谈英特尔CEO下课，回应美国半导体管制，用AI写演讲稿

24万“AI民工”血汗，哺出一个95后亿万富豪

深圳教授联手三星高管押注具身智能！被联想创投等看中了

清华系大模型独角兽又融资，30亿元！今年商业化收入翻倍

学校新来的AI体育老师，量身定制每天一小时最合理运动计划

NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署｜在线研讨会直播预告

清华系出手！全球第一款端侧全模态理解模型开源

国产AI算力黑马崛起，解密英博云全新产品矩阵

XR一夜变天，谷歌“重做安卓”！三星MR头显亮牌，硬刚苹果

2024 ACL Fellow出炉！全球九位科学家入选，华人有四位

后Scaling Law时代，需要一份向量数据库的琅琊榜

趣丸科技贾朔：探索音乐创作的技术平权——AI音乐的创新实践

谷歌最强大模型登场！掀Agent风暴，放AI芯片大招，深夜突袭OpenAI

让手机、PC、汽车、AIoT等“终端”都用好AI，搞定统一生态这事太重要了

靠欺骗AI，他们提走40万元

清华系大模型，又拿数亿元融资！

投影技术的第三次革命！从3LCoS到全产业链蜕变

Sora上线挤爆服务器！1个视频3块钱，网友已玩疯，实测对比可灵海螺

最新国内AI手机排行榜，让人有点破防

人大北航新算法登Nature子刊：破解复杂时空物理场重建难题

杨植麟终于回应，承认张予彤身份！朱啸虎还击：回避了所有关键问题

2024中国生成式AI大会上海站圆满收官，第二日AI Infra峰会演讲精华一文看尽

探访棋坛巅峰赛事：大模型体验区火爆，AI拉满存在感

最强OpenAI o1深夜发布！至尊版套餐每月1450元，支持无限次访问

2024中国生成式AI大会上海站开幕！首日大模型峰会燃爆魔都，17位大咖密集输干货

瞄准万物智联时代安全痛点，安谋科技用硬核技术创新强化PSA安全生态

谷歌发布世界模型Genie 2！一键生成3D游戏，人和AI都能玩，时长多达1分钟

“消失”的小米副总裁

亚马逊年末甩王炸！6款大模型、3nm AI芯片、全球最大AI计算集群，苹果罕见站台

智能手机的未来：端侧大模型重塑用户体验｜vivo AI全球研究院AI算法技术总监李方圆演讲预告

股价飙涨790%！今年最火AI妖股诞生，比英伟达还猛，创始人跻身百亿富豪榜

李飞飞空间智能上新！一张图就可以生成3D世界，能像玩游戏一样互动

生成式AI驱动实时互动的技术变革与体验革新｜声网生成式AI产品负责人毛玉杰演讲预告

腾讯混元上线文生视频并开源，120秒内成片！还有提示词建议

突发！英特尔CEO基辛格下课，立即生效

谁困住了具身智能？16位人形机器人高管激辩，戳破行业真相

GenAICon 2024上海站分会场议程公布！3场研讨会17位学者专家拆解端侧AI、视频生成与具身智能

联想AIPC端侧智能体｜联想集团首席研究员、联想研究院人工智能实验室研发总监师忠超演讲预告

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

中国大模型生存战：巨头围剿，创业难熬

傅盛捅破AI行业窗户纸！百模大战靠数据背后是什么逻辑？

前小米全球副总裁AI创业！获谷歌、OpenAI联创投资，2个月估值36亿

MiniMax副总裁刘华：多模态大模型开放平台探索与实践｜演讲预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉