Sora很牛，但是中国的差距没有想象那么大

民生情感 2024-02-23 20:30 广东

文 | 呙中校

Sora的确牛，但是我们不必神话它。

自2月16日首次发布后，OpenAI的视频生成模型Sora震惊全世界，热度至今未消。

从目前发布的视频显示，Sora不仅仅是一个视频生成工具，还是一个改变时代的颠覆式创新。至少，会重新定义我们的娱乐。

Sora生成的视频

华裔科学家、纽约大学教授谢赛宁评论道：《真相捕捉》和《黑镜》里讲的故事，很有可能很快变成现实。因为无论是OpenAI还是从业者都认为，这是一个世界模拟器，是通向通用人工智能的重要一步。

那么，在世界模型与视频生成领域，中国AI与Sora差距究竟有多大？答案或许让你想象不到。

“世界模拟器”降临？

Sora团队不过13人，其中包括一位毕业不久的本科生。就13人的团队，做出了一个划时代的产品，不能不让人惊叹OpenAI的创造力。OpenAI的一位员工自豪地说：“我司一贯风格，一个班去颠覆别人一个团。”

Sora团队核心成员，从左到右分别为Will DePue、Tim Brooks、Bill Peebles、Aditya Ramesht

如果Sora 技术得到广泛应用，对影视制作业的冲击显而易见。美国旧金山一个投资人预计，在5年内，一个不到5人的团队将可能用视频生成模型制作出一部票房收入超过5000万美元的电影。

我们即将步入一个新的娱乐时代。这时，影视剧集不再是单向的叙述，而是一个能够反映和适应每位观众独特偏好、能与观众真切互动的沉浸式体验。这样，虚拟与现实不再区分，创造和享受成为一体——英文单词recreation（前缀re和词根creation，字面意义为“再创造”，在英文中指让自己身心放松的消遣、娱乐）已经作出了诠释。

Sora生成的视频

但是，Sora让世界震惊的是，它不仅仅是一个视频生成模型。无论是OpenAI还是从业者都认为，这是一个世界模拟器，是通向通用人工智能的重要一步。OpenAI宣称：Sora是能够理解和模拟现实世界的模型的基础，我们相信这种能力将成为实现AGI（通用人工智能）的重要里程碑。

英伟达高级研究科学家范麟熙（Jim Fan）断言，“Sora 是一个数据驱动的物理引擎，是一个可学习的模拟器，或世界模型”。

世界模型？这是AI借鉴心理学和认知科学中的“心智世界”（mental world），指机器对世界运作方式的理解和内部表示，也可以理解为AI 系统的“心智模型”，是 AI 系统对自身和外部世界的认知和期望。

Sora生成的视频

Sora是世界模型？这让一些AI科学家很不以为然，尤其是Meta首席科学家、世界模型的提出者之一杨立昆（Yann LeCun，法裔美国人）认为，依靠像素堆积起来的Sora是无法理解世界的。从ChatGPT火爆开始，他就一直批评OpenAI的技术方向走错了。

OpenAI也承认，现在Sora还未完全理解世界的物理规律。据悉，OpenAI正在教人工智能理解和模拟运动中的物理世界，目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。

Sora生成的视频

在OpenAI最新释放的一个Sora生成的寄居蟹视频中，蟹脚脱离与嵌入沙滩的过程、灯泡在沙滩拉出的痕迹等细节都符合真实世界的物理定律。可见，AI世界的演化将会非常迅速。

谁又能知道一年后视频生成是什么样子呢？

中国差距究竟有多大？

“按这个速度发展，我们的AI技术与国外的差距越来越大了。” Sora发布后，不少人发出这样的感慨。

事实上，我们在世界模型与视频生成领域的差距没有大语言模型那么大。

在大语言模型领域，我们现在的大模型可能与GPT3.0差不多，但是还没有谁达到GPT3.5的水平。GPT3.0是OpenAI在2020年发布的，因此在大语言模型领域我们与国外的差距在3年左右。

我们的差距没有大语言模型那么大

而视频生成的差距我认为要小得多，大概是半年到一年的时间，国内应该会跑出一两个有效的视频模型。

为什么这样说呢？这是因为国内在世界模型和视频生成的技术研发上已经有了相当的基础，这一块主要集中在搞自动驾驶的企业。

这次Sora出来后，最不好受的除了谷歌（他们重磅发布Gemini Pro 1.5不到2小时，风头就全被Sora抢了）便是马斯克了。OpenAI毕竟是马斯克参与创立的公司，但后来离开，他现在的感受是五味杂陈。他在社交媒体上说，Tesla的视频生成，在物理理解上要比Sora好得多，只是他们生成的视频都是基于车辆行驶，很无趣。结果很多人说他吹牛。

（Wayve的GAIA-1世界模型生成的视频）

或许马斯克所言非虚。除了Tesla，英国的Wayve也取得相当不错的成绩。因为自动驾驶都需要一个理解物理规律的世界模型，否则车辆上不了路。因为自动驾驶需要预测未来几秒（或者一秒）内周围世界发生的景象，然后提前做出动作。预测下一步的景象，就是生成视频，而且不是凭空想象，而是要根据物理世界的规律做合理预测。

这方面除了Tesla、Wayve，中国的团队也取得突出成果。

不必神话Sora

2023年10月11日，百度团队发布Driving Diffusion，这是一个采用潜扩散模型通过3D布局引导的多视图世界模型（https://drivingdiffusion.github.io/）。从他们发布的视频来看，视频主体稳定，一致性和连贯性都很好。

2023年11月22日，旷视、早稻田大学、中科大联合发布ADriver-I:世界模型，可以在驾驶场景中生成全景可控视频的创新方法，能够产生无限数量的多样化、带注释的样本，这对自动驾驶的进步至关重要。

2023年11月27日，GigaAI与清华大学联合发布DriveDreamer （https://drivedreamer.github.io），据称这是“第一个根据真实驾驶场景建立的世界模型“，能够生成精确、可控的视频，忠实地捕捉现实世界交通场景的结构约束。

2023年11月29日，中国科学院香港创新研究院发布Drive-WM世界模型，可以在驾驶场景中生成生成高质量、一致且可控的多视图视频，为现实世界模拟和安全规划提供了可能性。(https://drive-wm.github.io/)

Drive-WM世界模型视频截图

这些视频显然与Sora生成的视频有明显的差距，毕竟这些世界模型都是针对驾驶场景来训练，对视频的长度、精细度没有太高要求，更不要提艺术性了，但是在物理规则的理解上这些世界模型都需要与现实世界拟合，否则会出人命的。

从马斯克在X上的发言来看，他的言外之意是：我们一直在专心搞自动驾驶的世界模型，只是没有想过把这个用来搞商业化视频，我们要搞起来，肯定要比OpenAI好……

眼下我们正身处一个AI新时代的开始

可见，国内发展商业化视频生成其实具备相当的技术条件了，至少比搞大语言模型要好得多，可以弯道超车建立自己的世界模型。国产大语言模型的一大难点在于高质量的中文语料不够，而且中文语法天马行空，给训练带来很大难度。

而视频生成没有语法这个问题，视频资料也积累得相当多，因此在自动驾驶世界模型的基础上来训练，一年内应该可以看到成果。

国内发展商业化视频生成其实具备相当的技术条件

Sora的确牛，但是我们不必神话它，在这个领域如果能认清我们的优势和短板，那就有可能如网上流传的央视台长慎海雄所说，实现点上的突破！

文|呙中校

图片来自网络

今日话题

你觉得Sora会颠覆世界吗？

留言区聊聊~

http://mp.weixin.qq.com/s?__biz=MzA5Njg4MzQ4NA==&mid=2656423397&idx=1&sn=1983da11b4e69a9a33c8a18d6ae7438f

深圳客

全球视角深圳立场思想容器生活蓝本

最新文章

中金女员工自陨背后，金融从业者如何自我“救赎”？

刚开通3天，一条深中通道已经不够用了

苏州命案为何令日本人如此不安？

当深圳“顶楼”遇见世界文学的“顶流”

深中通道来了，深圳能凭一己之力带动“珠西”吗？

深圳人的新法则：西部赚钱东部花

发票、硒鼓与跑楼，活在城市缝隙里的华强北阿姨

柔宇破产，一个难得的深圳失败样本

2024的深圳，为什么最需要复兴理想？

南北的龙舟段子，爽了整个端午

深中通道即将通车，珠江东西两岸迟到十年的牵手

这一次，为什么造车大佬都“对齐”深圳？

当“断网”式纯真成为当下最大的情绪价值

“大湾区地铁”终于通车，这一次又没有深圳

凭什么举报郭有才？

文博会20年，文化霸总深圳的全球“开挂”之路

深圳其实是个“爽文城市”

这届年轻人，职场没朋友

《我的阿勒泰》，“渴望”不可及的时代良药

全网被喷的璩静，说出了老板们不敢说的心里话

又到五一，深圳人绕不开的“北站故事”

天下打工人苦调休久矣

深圳凭什么“又敢” ？

“闭门造车”造不出周冠宇

双向奔赴，才是深港新常态

艺文深圳丨醒春向荣•体验一日乐舞律动营（内含福利）

艺文深圳 | 中文版舞台剧《悲惨世界》（内含福利）

都 2024 了，为什么还有人在深圳谈理想？

当上门按摩“占领”电梯间，2024偷偷做大做强的生意

这一波，是香港人稳住了深圳消费

又到清明，又一批深圳人已经海葬了

当时代不再“发烧”，谁还会抢小米汽车？

比深圳孩子还“可怜”的，是深圳家长

恶心穿搭、弱智头像…这届年轻人在“针对”谁？

深圳，可能是中国最会“搞服务”的城市

邯郸少年杀人背后：被长期无视的“恶”

泼天流量，也救不了网红城市的“衰落”

艺文深圳 | 国潮芒草节，一场有态度的“超级狂欢”

薪资到位星座匹配…上百万年轻人在深圳忙着选老板

有时候觉得深圳小孩有点“可怜”

当东方树叶也被举报……

一年快递千亿件，新规真的能让它们送到家吗？

2024，每个人都在寻找自己的光明

被“县城赢家”破防后，深圳中产想换一种“活法”

社火的神明里，有当下最真实的精神寄托

Sora很牛，但是中国的差距没有想象那么大

如期开工，在腾挪中情绪稳定的深圳人

深圳舞剧，一路“咏春”到春晚

在深圳，如何老而不漂

艺文深圳 | 韩湛宁新书发布：设计如何作为动力

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉