首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Sora被打脸：为什么视频AI模型始终学不会基本物理？

文摘 2024-11-18 08:41 广东

Sora

看得懂画面，却不懂物理

当OpenAI推出被称为“视频界GPT-1”的Sora时，行业内一片欢呼——人们期待这个模型能模拟真实世界的物理规律，甚至成为“通用世界模型”的开端。但最近一项由字节跳动研究团队和清华大学联合完成的研究，却给这一愿景泼了一盆冷水。

这项研究揭示了一个令人不安的真相：当前的AI视频生成模型虽然能创造惊艳的视觉效果，但在理解和应用物理规律方面，依然停留在“初级水平”。

论文：arxiv.org/abs/2411.02385 网页：phyworld.github.io

模型的真相：表面复制，而非理解

研究人员设计了三种测试场景，试图探究这些AI模型是“理解”了物理规律，还是仅仅在模仿训练数据的表面模式：

已知模式的预测：模型在熟悉的训练场景中表现出色；
未知模式的预测：面对新类型的物体运动，模型表现糟糕；
熟悉元素的新组合：简单场景的元素组合变化，也让模型频频“翻车”。

结果令人惊讶：这些模型实际上并没有掌握普适的物理规律，它们仅仅依赖于训练数据中的表面特征，如颜色、大小、速度和形状，遵循一个固定优先级的层级结构——颜色最重要，形状最次要。

清华大学的研究员Bingyi Kang在X平台分享了一个实验结果：当训练数据中的小球快速从左向右运动时，模型可以完美地生成对应视频。但如果将速度减慢，测试结果却显示小球在几帧后突然改变方向——显然，模型并不真正“理解”直线运动的物理规律。

放大规模也无济于事

很多人曾认为，AI模型的问题可以通过扩大规模和增加训练数据来解决。但研究结果显示：规模的提升虽然能带来一些改进，但远不足以让模型掌握真正的物理规律。

Bingyi Kang进一步指出，如果某个应用场景足够窄，且训练数据覆盖全面，那么一个“过拟合”的特定世界模型可能是可行的。但这样的模型并不具备真正意义上的“通用性”。通用世界模型的核心能力，是能够超越训练数据，推断出未知情境中的物理规律——而这正是现有技术的薄弱之处。

对OpenAI的挑战：通往“世界模型”之路还很漫长

这项研究让OpenAI对Sora的雄心蒙上了阴影。OpenAI曾表示，Sora初步展现了物理交互和3D几何的理解能力，希望通过模型扩展，最终将其打造成通用的世界模型。但字节跳动和清华大学的研究表明：仅靠“扩大规模”无法实现这些目标。

值得注意的是，Meta首席AI科学家Yann LeCun早在Sora发布论文时就表达过类似的怀疑，称“用像素生成预测世界”的方法“浪费且注定失败”。

这不仅仅是OpenAI的难题，Google DeepMind、RunwayML等追求类似目标的公司，也可能面临同样的瓶颈——现阶段的视频AI模型距离真正的“物理理解”还有很长的路要走。

技术突破往往不是线性的堆叠

而是需要从底层重新思考问题

关注《森林聊AI商业》公众号

了解 AI 如何塑造商业的未来

http://mp.weixin.qq.com/s?__biz=Mzg3MTA1MzE2Nw==&mid=2247490495&idx=1&sn=dc6ff81ca6cbae11d76264994d6add3e

森林聊AI商业

每日一起了解，AI如何改变科技世界

最新文章

“末日倒计时？”彼得·蒂尔警告：科技进步可能正在摧毁人类的未来

阿根廷总统：为何称马斯克是‘人类历史上的英雄’？

AI太强大？AI公司亲自上演‘狼来了’！

从“真实”到“AI”：可口可乐圣诞广告的大胆转折

AI写诗吊打700年文学巨匠？实验结果让人不敢相信！

Sora被打脸：为什么视频AI模型始终学不会基本物理？

字节跳动的3000亿美元估值：从巅峰到风波中的逆袭？

【马斯克起诉奥特曼第20篇】：马斯克宣布：OpenAI与他撇清关系

【马斯克起诉奥特曼第19篇】：揭示“封顶利润”这一颠覆性商业模式

【马斯克起诉奥特曼第18篇】：资本的“新思路”

【马斯克起诉奥特曼第17篇】：OpenAI的这份宪章，如何承诺让人工智能造福全人类

【马斯克起诉奥特曼第16篇】：OpenAI 的新筹资模式,马斯克为何突然退出OpenAI？

【马斯克起诉奥特曼第15篇】：与谷歌竞争，与特斯拉合作是OpenAI唯一的选择”

【马斯克起诉奥特曼第14篇】：对ICO说“不”

【马斯克起诉奥特曼第13篇】：非营利的终局？

【马斯克起诉奥特曼第12篇】：马斯克为何突然撤资？解读OpenAI内部控制权之争

【马斯克起诉奥特曼第11篇】：Greg 和 Ilya 为啥担心马斯克不够投入？

【马斯克起诉奥特曼第10篇】：OpenAI的算法被DeepMind用上了，行业标杆实锤了

【马斯克起诉奥特曼第9篇】：微软与OpenAI合作的代价，成为宣传工具

【马斯克起诉奥特曼第8篇】：为什么 AI 力量不应由公司垄断

【马斯克起诉奥特曼第7篇】：人物访谈背后那些不为人知的“内定”细节

【马斯克起诉奥特曼第6篇】：要么招到世界上最优秀的人才，要么被 DeepMind 打得落花流水!

【马斯克起诉奥特曼第5篇】：马斯克如何选择AI人才

【马斯克起诉奥特曼第4篇】OpenAI应对DeepMind的薪资对抗策略

【马斯克起诉奥特曼第3篇】：如何为AI研究公司，起草吸引顶尖人才招聘信息！

【马斯克起诉奥特曼第2篇】：吸引AI研究人才的策略

【马斯克起诉奥特曼第1篇】： OpenAI 项目的思想雏形

一封邮件引发的AI千亿战争！

马斯克第二个10万块AI工厂要来了！xAI拿下60亿融资，目标：干掉ChatGPT？

谷歌AI又失控！向一位研究生，发出死亡威胁？

马斯克起诉微软和OpenAI搞“幕后交易”

我是微软经理，AI帮我节省70%编程时间，但工作反而更忙了

【完整版】马斯克的超级计算机，如何吓坏AI竞争对手

OpenAI新工具“AI操作员”即将上线！挑战Google和Anthropic！

Musk搞了个“税金浪费排行榜”，让大家看看美国政府怎么烧钱！

孙正义和黄仁勋相拥“假哭”：错过了“全资收购”Nvidia的机会

马斯克逼出Sam Altman的危机感！微软不给力？OpenAI考虑“另谋高就”！

Anthropic创始人：AI时代，人生的意义在哪里？

Anthropic创始人：AI接管编程，程序员还能做什么？

Anthropic创始人：准备好了吗？AGI,2026年可能到来

Anthropic创始人：为什么AI很难准确预测未来？

Anthropic创始人：别再纠结“AGI”了，它其实只是个模糊的词

孙正义的豪赌翻盘：软银从巨亏到狂赚的逆袭之路

Anthropic创始人揭秘：AI模型训练后才是“魔法”真正开始的地方

Anthropic创始人建议：AI新手少看论文，多动手

Anthropic创始人解释：当初为什么离开OpenAI

Ilya Sutskever：AI模型其实就是想学习，没有别的

如果Claude操作电脑达90%准确率！会是什么效果？

为什么大家觉得AI助手“越用越笨”？真相在这里！

5万字访谈，Anthropic的CEO：AI离人类智慧还有多久？2027年或将见分晓！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉