作者|苏霍伊
编辑|赵健
今天是OpenAI科技“马拉松”的第三天——鸽了近一年的Sora终于上线!
场面之火爆,Sora Turbo一经发布服务器就被挤爆了。
很多视频case已经在网上传播。对于Sora真实的“买家秀”效果,口碑评价出现了两极分化。有人认为,Sora代表了视频生成的最强水平。但也有人认为,Sora的表现并不及预期。
在今天举办的2024甲子引力年终盛典上,清华大学人工智能研究院副院长、生数科技首席科学家朱军,智谱CEO张鹏,以及北京智源人工智能研究院院长王仲远第一时间对Sora进行了评价。
朱军认为,Sora正式上线所带来的冲击度,相比今年二月的首次发布已经弱了很多。视频生成模型在今年有了长足的发展,已经完全不是Sora二月份刚发布时的阶段。整体来说,Sora的发布有一些产品上亮点,尤其是视频编辑的能力。但在基础模型能力的表现上其实没有太多的亮点,效果在预期之内,比如Sora的生成速度看上去还是挺长的,大概在分钟级,而且成本也不低,这都可能会影响后续用户的使用以及商业化的进展。
张鹏表示:“Sora的效果离自己的预期有一点偏差。如果看技术指标,国内有的视频生成模型不比Sora差。”比如智谱发布的视频生成模型产品清影,已经可以支持生成4K分辨率的视频了。
当然视频模型的比拼肯定不是简单地对比参数,而是如何产生实际的应用、产生生产力。张鹏认为,Sora这次发布把很大的精力放在了产品而非模型上,比如视频编辑能力、工作流,这是面向用户需求的转变。
王仲远认为Sora的上线基本符合预期,没有年初发布时的惊艳效果。从产品上线时间来看,国内公司也实际上已经早于OpenAI做出了产品级的模型。今年智源发布的新模型Emu3也探索了下一代的技术路线,是一个包括文本、图片、视频在内的原生多模态统一理解和生成模型。
从官网的介绍到用户的体验,总体看下来「甲子光年」最大的感受是OpenAI已经不仅仅是一个模型公司,而是进化为产品公司。Sora Turbo的亮点更偏重视频编辑的产品设计。
OpenAI在今年显然加强了产品层的投入。比如今年6月,前Instagram产品副总裁以及Twitter产品副总裁Kevin Weil加入OpenAI,担任首席产品官。
人们经常问AI时代的Killer App是什么?今天来看,“Sora+ChatGPT”或许就是最被忽略的killer app。
1.视频版的GPT-1
北京时间12月10日凌晨,OpenAI CEO 萨姆·奥尔特曼(Sam Altman)与Sora团队负责人比尔·皮布尔斯(Bill Peebles)、阿迪亚·拉梅什(Aditya Ramesh)一起进行了20分钟关于Sora的讲解直播。
奥尔特曼在直播中将Sora称之为视频版的GPT-1,Sora是DALL·E和GPT模型的基础上创建的。
Sora采用了扩散模型(Diffusion Model),通过从初始“噪声”中生成基础视频,并逐步去噪以生成高质量画面。这一过程依托Transformer架构,能够一次性预测多个帧,确保画面中主体的连续性,即使主体暂时脱离视野,也能保持一致。
此外Sora继承了DALL·E 3的重新字幕技术(Re-captioning),为视觉训练数据生成详细的描述性字幕,增强了对用户文本指令的忠实呈现能力。
Sora的训练数据集来自多种来源,包括:
公开数据集(Public Datasets):来自行业标准机器学习数据集及网络爬虫的数据。
专有数据(Proprietary Data):通过合作伙伴获取的非公开数据,例如与Shutterstock、Pond5的合作。 人工生成数据(Human-Generated Data):由AI培训师和红队成员提供的反馈。
Remix(重混):用户可以替换、删除或重构视频中的元素; Re-cut(重新切割):用户可以寻找视频中的最佳帧,并从此延展或循环剪辑; 混合:Sora Turbo可以将两个视频片段进行无缝合并; 故事板剪辑:精确地指定每个帧的输入,精确叙事控制,将照片转化为视频; 风格预设:用户可以选择预设的风格来创建视频,速设定视频的视觉风格。
Sora Turbo的效果展示
文本到视频(Text-to-Video)模式:Sora的核心功能,可以让用户通过输入文本描述来生成完整的视频。利用先进的自然语言处理技术和生成模型,Sora能够理解文本的含义,并将其转化为具象的视觉内容。这一模式适用于制作从简短的短片到情节丰富的叙事视频。
文本+图像到视频(Text+Image-to-Video)模式:在这个模式中,用户不仅可以输入文本描述,还可以上传图像来增强视频生成的精确性。通过结合文本和图像,Sora可以更准确地捕捉并实现创作者的创意意图,生成更符合视觉期望的视频。这一功能尤其适用于需要在视频中整合特定图像元素的应用场景,例如广告制作和产品展示。 文本+视频到视频(Text+Video-to-Video)模式:Sora还提供了视频编辑和转换功能,允许用户上传已有视频素材,并结合文本描述进行修改或扩展。这一模式使用户能够在现有视频的基础上添加新的情节、细节,甚至创作出全新的版本或完全不同的内容。例如,用户可以对现有的广告视频进行重新编辑,加入新的对话、场景或动画效果。
Sora Turbo的效果展示
2.Sora并不完美
布朗利的评测视频,来源:Youtube
END.