生数、智谱、智源谈Sora:模型在预期之内,产品才是亮点|甲子光年

科技   科技   2024-12-10 16:26   北京  
Sora只是GPT-1。


作者|苏霍伊

编辑|赵健


今天是OpenAI科技“马拉松”的第三天——鸽了近一年的Sora终于上线!


场面之火爆,Sora Turbo一经发布服务器就被挤爆了。



很多视频case已经在网上传播。对于Sora真实的“买家秀”效果,口碑评价出现了两极分化。有人认为,Sora代表了视频生成的最强水平。但也有人认为,Sora的表现并不及预期。


在今天举办的2024甲子引力年终盛典上,清华大学人工智能研究院副院长、生数科技首席科学家朱军,智谱CEO张鹏,以及北京智源人工智能研究院院长王仲远第一时间对Sora进行了评价。


朱军认为,Sora正式上线所带来的冲击度,相比今年二月的首次发布已经弱了很多。视频生成模型在今年有了长足的发展,已经完全不是Sora二月份刚发布时的阶段。整体来说,Sora的发布有一些产品上亮点,尤其是视频编辑的能力。但在基础模型能力的表现上其实没有太多的亮点,效果在预期之内,比如Sora的生成速度看上去还是挺长的,大概在分钟级,而且成本也不低,这都可能会影响后续用户的使用以及商业化的进展。


张鹏表示:“Sora的效果离自己的预期有一点偏差。如果看技术指标,国内有的视频生成模型不比Sora差。”比如智谱发布的视频生成模型产品清影,已经可以支持生成4K分辨率的视频了。


当然视频模型的比拼肯定不是简单地对比参数,而是如何产生实际的应用、产生生产力。张鹏认为,Sora这次发布把很大的精力放在了产品而非模型上,比如视频编辑能力、工作流,这是面向用户需求的转变。


王仲远认为Sora的上线基本符合预期,没有年初发布时的惊艳效果。从产品上线时间来看,国内公司也实际上已经早于OpenAI做出了产品级的模型。今年智源发布的新模型Emu3也探索了下一代的技术路线,是一个包括文本、图片、视频在内的原生多模态统一理解和生成模型。


从官网的介绍到用户的体验,总体看下来「甲子光年」最大的感受是OpenAI已经不仅仅是一个模型公司,而是进化为产品公司。Sora Turbo的亮点更偏重视频编辑的产品设计


OpenAI在今年显然加强了产品层的投入。比如今年6月,前Instagram产品副总裁以及Twitter产品副总裁Kevin Weil加入OpenAI,担任首席产品官。


人们经常问AI时代的Killer App是什么?今天来看,“Sora+ChatGPT”或许就是最被忽略的killer app。




1.视频版的GPT-1


北京时间12月10日凌晨,OpenAI CEO 萨姆·奥尔特曼(Sam Altman)与Sora团队负责人比尔·皮布尔斯(Bill Peebles)、阿迪亚·拉梅什(Aditya Ramesh)一起进行了20分钟关于Sora的讲解直播。



奥尔特曼在直播中将Sora称之为视频版的GPT-1,Sora是DALL·E和GPT模型的基础上创建的。


Sora采用了扩散模型(Diffusion Model),通过从初始“噪声”中生成基础视频,并逐步去噪以生成高质量画面。这一过程依托Transformer架构,能够一次性预测多个帧,确保画面中主体的连续性,即使主体暂时脱离视野,也能保持一致。


此外Sora继承了DALL·E 3的重新字幕技术(Re-captioning),为视觉训练数据生成详细的描述性字幕,增强了对用户文本指令的忠实呈现能力。


Sora的训练数据集来自多种来源,包括:


  1. 公开数据集(Public Datasets):来自行业标准机器学习数据集及网络爬虫的数据。


  2. 专有数据(Proprietary Data):通过合作伙伴获取的非公开数据,例如与Shutterstock、Pond5的合作。

  3. 人工生成数据(Human-Generated Data):由AI培训师和红队成员提供的反馈。

奥尔特曼表示Sora Turbo开启了AI模拟现实与交互的全新篇章。作为Sora的全新升级版本,它提供了多种视频比例选项,包括横屏(16:9)、正方形(1:1)和竖屏(9:16),适应不同的显示需求和创意表达。同时Sora Turbo引入了多种高级编辑功能:

Remix(重混):用户可以替换、删除或重构视频中的元素;

Re-cut(重新切割):用户可以寻找视频中的最佳帧,并从此延展或循环剪辑;

混合:Sora Turbo可以将两个视频片段进行无缝合并;

故事板剪辑:精确地指定每个帧的输入,精确叙事控制,将照片转化为视频;

风格预设:用户可以选择预设的风格来创建视频,速设定视频的视觉风格。

Sora Turbo的效果展示


Sora有三种视频生成模式:

  1. 文本到视频(Text-to-Video)模式:Sora的核心功能,可以让用户通过输入文本描述来生成完整的视频。利用先进的自然语言处理技术和生成模型,Sora能够理解文本的含义,并将其转化为具象的视觉内容。这一模式适用于制作从简短的短片到情节丰富的叙事视频。


  2. 文本+图像到视频(Text+Image-to-Video)模式:在这个模式中,用户不仅可以输入文本描述,还可以上传图像来增强视频生成的精确性。通过结合文本和图像,Sora可以更准确地捕捉并实现创作者的创意意图,生成更符合视觉期望的视频。这一功能尤其适用于需要在视频中整合特定图像元素的应用场景,例如广告制作和产品展示。

  3. 文本+视频到视频(Text+Video-to-Video)模式:Sora还提供了视频编辑和转换功能,允许用户上传已有视频素材,并结合文本描述进行修改或扩展。这一模式使用户能够在现有视频的基础上添加新的情节、细节,甚至创作出全新的版本或完全不同的内容。例如,用户可以对现有的广告视频进行重新编辑,加入新的对话、场景或动画效果。

Sora Turbo的效果展示


“我们希望通过Sora项目构建能真正理解世界及物理(原理)的AI系统。我们才刚起步,Sora早期版本并不完美,偶尔有错误,但它现在已经能做到真正增强人类的创造力了。”皮布尔斯说道。

o1模型的核心贡献者之一、OpenAI的研究科学家诺姆·布朗(Noam Brown)称赞Sora是scale力量的最直观展示。OpenAI的研究员威尔·德普(Will DePue)也在社交媒体上表示:“我们付出了巨大的努力才实现这一目标,Sora是非常直接和有趣的产品。”

ChatGPT Plus/Pro用户可直接用Sora Turbo生成视频。ChatGPT Pro计划的用户每月可生成500个视频,时长最长可达20秒,最大分辨率为1080p;ChatGPT Plus用户每月可以生成50个视频,最大分辨率为720p,最长时长为5秒。

在推广Sora Turbo的同时,OpenAI对于技术的安全性和伦理使用也非常重视。他们对模型内置了多项安全措施,例如加入C2PA元数据确保视频的透明度,并验证视频的来源。同时OpenAI还设立了红队测试,这些测试由信息误导、仇恨内容和偏见等领域的专家进行。

“在过去的九个月中,我们观察了来自60多个国家/地区300多名用户的500000多个模型请求的用户反馈。这些数据有助于增强模型行为并提高模型对安全协议的遵守程度。”OpenAI在文章中写道。



2.Sora并不完美


Youtube科技评测网红马克斯·基思·布朗利(Marques Brownlee,网名MKBHD)也对Sora进行了深度评测。

布朗利的评测视频,来源:Youtube


布朗利发现Sora擅长粒子和流体模拟,“令人惊讶的是,Sora对流体动力学的处理相当出色,水的波动和火焰的效果往往能达到令人信服的程度,即使烟雾效果可能还不够完美”。但他同时也认为,Sora完全不懂物理。

从官方展示的视频也可以看出,Sora对“运动”的理解还不全面,有时甚至错误百出。比如在一个猴子轮滑的的视频中,可在看到猴子的右腿“毫无防备”地变成了左腿。


以及在提示词为“rockefeller center is overrun by golden retrievers! everywhere you look, there are golden retrievers.”的视频中,金毛猎犬的数量模糊,每个个体的形状不稳,又时隐时现,比如有的脑袋突然变成了尾巴。


对于这些不足,OpenAI表示:“Sora是一款强大的工具,使你能够跨越物理限制,在多个场景中同时发挥创造力,探索各种全新的可能性。更重要的是,我们认为它极大地扩展了幕后创作者的创作空间,赋予他们前所未有的能力去实现创意。”

直播最后,Sora团队也“泼了一盆冷水”来控制用户预期:“如果你带着这样的期望来到 Sora,认为只需点击一个按钮就能生成一部故事片,那么你可能抱有错误的期望。”




END.






甲子光年
甲子光年是一家科技智库,包含智库、社群、企业服务版块,立足中国科技创新前沿阵地,动态跟踪头部科技企业发展和传统产业技术升级案例,推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。
 最新文章