Sora
看得懂画面,却不懂物理
当OpenAI推出被称为“视频界GPT-1”的Sora时,行业内一片欢呼——人们期待这个模型能模拟真实世界的物理规律,甚至成为“通用世界模型”的开端。但最近一项由字节跳动研究团队和清华大学联合完成的研究,却给这一愿景泼了一盆冷水。
这项研究揭示了一个令人不安的真相:当前的AI视频生成模型虽然能创造惊艳的视觉效果,但在理解和应用物理规律方面,依然停留在“初级水平”。
论文:arxiv.org/abs/2411.02385 网页:phyworld.github.io
模型的真相:表面复制,而非理解
研究人员设计了三种测试场景,试图探究这些AI模型是“理解”了物理规律,还是仅仅在模仿训练数据的表面模式:
已知模式的预测:模型在熟悉的训练场景中表现出色;
未知模式的预测:面对新类型的物体运动,模型表现糟糕;
熟悉元素的新组合:简单场景的元素组合变化,也让模型频频“翻车”。
结果令人惊讶:这些模型实际上并没有掌握普适的物理规律,它们仅仅依赖于训练数据中的表面特征,如颜色、大小、速度和形状,遵循一个固定优先级的层级结构——颜色最重要,形状最次要。
清华大学的研究员Bingyi Kang在X平台分享了一个实验结果:当训练数据中的小球快速从左向右运动时,模型可以完美地生成对应视频。但如果将速度减慢,测试结果却显示小球在几帧后突然改变方向——显然,模型并不真正“理解”直线运动的物理规律。
放大规模也无济于事
很多人曾认为,AI模型的问题可以通过扩大规模和增加训练数据来解决。但研究结果显示:规模的提升虽然能带来一些改进,但远不足以让模型掌握真正的物理规律。
Bingyi Kang进一步指出,如果某个应用场景足够窄,且训练数据覆盖全面,那么一个“过拟合”的特定世界模型可能是可行的。但这样的模型并不具备真正意义上的“通用性”。通用世界模型的核心能力,是能够超越训练数据,推断出未知情境中的物理规律——而这正是现有技术的薄弱之处。
对OpenAI的挑战:通往“世界模型”之路还很漫长
这项研究让OpenAI对Sora的雄心蒙上了阴影。OpenAI曾表示,Sora初步展现了物理交互和3D几何的理解能力,希望通过模型扩展,最终将其打造成通用的世界模型。但字节跳动和清华大学的研究表明:仅靠“扩大规模”无法实现这些目标。
值得注意的是,Meta首席AI科学家Yann LeCun早在Sora发布论文时就表达过类似的怀疑,称“用像素生成预测世界”的方法“浪费且注定失败”。
这不仅仅是OpenAI的难题,Google DeepMind、RunwayML等追求类似目标的公司,也可能面临同样的瓶颈——现阶段的视频AI模型距离真正的“物理理解”还有很长的路要走。
技术突破往往不是线性的堆叠
而是需要从底层重新思考问题
关注《森林聊AI商业》公众号
了解 AI 如何塑造商业的未来