Sora被打脸:为什么视频AI模型始终学不会基本物理?

文摘   2024-11-18 08:41   广东  

Sora

看得懂画面,却不懂物理

当OpenAI推出被称为“视频界GPT-1”的Sora时,行业内一片欢呼——人们期待这个模型能模拟真实世界的物理规律,甚至成为“通用世界模型”的开端。但最近一项由字节跳动研究团队和清华大学联合完成的研究,却给这一愿景泼了一盆冷水

这项研究揭示了一个令人不安的真相:当前的AI视频生成模型虽然能创造惊艳的视觉效果,但在理解和应用物理规律方面,依然停留在“初级水平”。

论文:arxiv.org/abs/2411.02385 网页:phyworld.github.io


模型的真相:表面复制,而非理解

研究人员设计了三种测试场景,试图探究这些AI模型是“理解”了物理规律,还是仅仅在模仿训练数据的表面模式:

  1. 已知模式的预测:模型在熟悉的训练场景中表现出色;

  2. 未知模式的预测:面对新类型的物体运动,模型表现糟糕;

  3. 熟悉元素的新组合:简单场景的元素组合变化,也让模型频频“翻车”。

结果令人惊讶:这些模型实际上并没有掌握普适的物理规律,它们仅仅依赖于训练数据中的表面特征,如颜色、大小、速度和形状,遵循一个固定优先级的层级结构——颜色最重要,形状最次要

清华大学的研究员Bingyi Kang在X平台分享了一个实验结果:当训练数据中的小球快速从左向右运动时,模型可以完美地生成对应视频。但如果将速度减慢,测试结果却显示小球在几帧后突然改变方向——显然,模型并不真正“理解”直线运动的物理规律。

放大规模也无济于事

很多人曾认为,AI模型的问题可以通过扩大规模和增加训练数据来解决。但研究结果显示:规模的提升虽然能带来一些改进,但远不足以让模型掌握真正的物理规律。

Bingyi Kang进一步指出,如果某个应用场景足够窄,且训练数据覆盖全面,那么一个“过拟合”的特定世界模型可能是可行的。但这样的模型并不具备真正意义上的“通用性”。通用世界模型的核心能力,是能够超越训练数据,推断出未知情境中的物理规律——而这正是现有技术的薄弱之处。


对OpenAI的挑战:通往“世界模型”之路还很漫长

这项研究让OpenAI对Sora的雄心蒙上了阴影。OpenAI曾表示,Sora初步展现了物理交互和3D几何的理解能力,希望通过模型扩展,最终将其打造成通用的世界模型。但字节跳动和清华大学的研究表明:仅靠“扩大规模”无法实现这些目标。

值得注意的是,Meta首席AI科学家Yann LeCun早在Sora发布论文时就表达过类似的怀疑,称“用像素生成预测世界”的方法“浪费且注定失败”。

这不仅仅是OpenAI的难题,Google DeepMind、RunwayML等追求类似目标的公司,也可能面临同样的瓶颈——现阶段的视频AI模型距离真正的“物理理解”还有很长的路要走。


技术突破往往不是线性的堆叠

而是需要从底层重新思考问题




关注《森林聊AI商业》公众号


了解 AI 如何塑造商业的未来




森林聊AI商业
每日一起了解,AI如何改变科技世界
 最新文章