一文读懂Sora前世今生，媒体如何看待文本视频模型新挑战

文摘科技 2024-02-23 15:57 江苏

这是小新智媒的第260篇文章

2月16日，在毫无预热的情况下，OpenAI发布了文本视频生成模型Sora，以划时代的产品效果，迅速成为了全球热点。国内科技界面对Sora，震惊之余浓浓的焦虑感也随之蔓延，媒体圈当然也在其中，传媒行业诸多高层和专家均对Sora表达了重视和关注。如果说去年的ChatGPT让报刊网站等文字立身的传媒压力山大，如今的Sora更让电视台、视频平台瑟瑟发抖。

文本视频模型发展史

文生视频实际已经发展了若干年，并非Sora首创，Sora的出圈，只是因为效果太好，将这一领域从前沿推向了前台。Sora诞生前，较主流的模型是Gen-2，Pika1.0，Stable Video Diffusion，以及VideoPoet。

Stability AI推出的Stable Video Diffusion，脱胎于老牌AI文生图模型Stable Diffusion，是出现最早，也是当前唯一开源的主流文生视频项目。国内近年来出现的AI生成视频，大都是基于开源的Stable Diffusion模型。如早在2022年国庆，人民日报就使用此模型，制作推出了《我的祖国》MV，圈内外都引发了一定的关注。Stable Diffusion门槛最低，智能程度相对一般，但对AI生成视频的普及却是居功至伟。

2023年上半年，和Stability AI有千丝万缕联系的AI视频公司Runway先后推出了文图生成视频的Gen-1和Gen-2模型，智能性上进步较大，具备了“智能笔刷”等有趣的功能，因风头完全被同期学霸ChatGPT掩盖，关注度始终不高。

11月，两位华裔少女创办的AI视频模型Pika横空出世，综合效果对比Gen系列更胜一筹，出生成长在杭州的创始人郭文景，因头顶“天才富二代少女”的名号，在国内引发了一波不小的热度，产品本身仍未火出圈。

直到Sora出现，60秒的时长对比竞品普遍的3-4秒，人物和背景同时变化对比竞品的“二动一”，质感和真实性的大幅提升，使得其实现了对其他产品近乎碾压的效果，也让文生视频这一概念持续刷屏，妇孺皆知。

遗憾的是，国内虽经历了“千模大战”，但大模型多以文图为主，目前虽也有新壹科技发布的新壹视频大模型等产品，字节也在研发其Boximator模型，总体来说竞争力十分有限，与国外产品的确存在较大的代差。

在使用方式上，Gen和Pika都未开源，无法像Stable Video Diffusion一样部署在本地，仅能在discord等网站在线付费使用。而Sora未正式对公众开放，目前仅OPENAI自身和少部分受邀用户可以使用，吊足了大众的胃口，其生成的视频奇货可居，在各路社交平台发布一个火爆一个。

文本视频模型的三大技术路线

Sora的创新和潜力

近年来的AI能力大爆发，离不开两种模型的发展，分别是Transformer自回归模型和Diffusion扩散模型。其中Transformer适用于大语言模型，由谷歌最早提出和建立，却最终被OpenAI发扬光大，造就了ChatGPT的辉煌。Diffusion适用于图片处理领域，Stable Diffusion、DALLE-3、文心一格等文生图产品均是基于这一模型。

视频的本质，是图片冗余扩充后，再进行的拼接展示。所以文生视频，还是文生图的延续，难点在于视频生成软件需要在对图片扩充时保持一定的连续性和逻辑合理性。因此，文生图领域基础性的Diffusion，在文生视频领域依然是应用的主流。Stable Video Diffusion、Pika、Runway的技术路线均是以Diffusion模型为基础，基于上一帧预测下一帧的方法来创建视频。

Google在Transformer为他人做嫁衣的遗憾后，开辟了另一条赛道，活用Transformer这一大语言模型来生成视频，具体方法是使用多种模态的tokens来表示视频，并利用一个预训练的大型语言模型来生成这些标记。其在2023年年底发布的零镜头视频生成大模型 VideoPoet，同样效果不俗，证明了Transformer应用于视频生成的可行性。

后来居上的Sora，可以说综合了两家之所长。它与Pika、Gen们一样，运用了Diffusion作为底层模型，又把他们的U-Net架构替换成了Transformer架构，将视频和图像表示为视觉块编码（Patch）的较小数据单元的集合，然后将其解码来创建视频。随着训练计算量的增加，样本质量显著提高，与ChatGPT一样，在视频领域又一次实现了大模型智能涌现的能力，最终呈现了远超对手的划时代视觉效果。

当然，断言OpenAI的Diffusion+Transformer路线，就是文生视频的最终形态，甚至具备“世界模拟器”的能力，还为时尚早。当前还在内测的Sora仅有卖家秀，已发布的作品中也出现了较多不合理的细节问题，能发展到何种地步仍是一个未知数。如深度学习之父，图灵奖得主 Yann LeCun对Sora持批评态度，认为Sora潜力有限，直言“通过生成像素来对真实世界建模不仅是种浪费，而且注定将要失败。”

此外，OpenAI的过度营销，在之前已有过买家秀与卖家秀的“货不对板”的前科。GPT4.0发布时，官方展现出了其种种炸裂性的能力。但真正向大众开放后，用户发现其尽管有较大进步，但仍不够实用，与AGI的预期仍差距较大，官方发布的案例，都是经历过筛选的，并不具有普适性。ChatGPT也在最初的惊艳后进入实际应用的瓶颈期，一年过去，并未颠覆甚至是过多改变任何行业。面对此次半遮半掩的Sora，仍需冷静看待，让子弹再飞一会儿，不宜对其期待过高。“扔进一部小说，出来一部大片”的美好愿景，可能只是万里长征走完了第一步。

文生视频模型为媒体带来的机遇和挑战

暂且不论Sora是否具备“模拟世界”的更高层次能力，其在视频生产方面取得的巨大进步是毫无疑义的，Sora这一工具，保底也将能较大地改变视频制作的产业格局，对影视、传媒、广告等行业带来一定的影响。

媒体内容生产方式的改进

Sora为代表的文生视频模型，对视频拍摄和动画制作都是降维打击，既无需素材、建模，也无需灯光、摄影、剪辑，即可产出高质量的视频，将极大提升视频内容的生产效率，降低制作成本。通过自动化生成视频内容，个人和小型媒体机构能够以更低的成本生产高质量的视频，这对大型媒体机构来说，既是原有护城河消失的冲击，也是拥抱新技术降本增效的机遇。

媒体内容进一步丰富多样

文生视频模型可以根据任意的文本输入，生成各种类型的视频内容，如新闻、教育、娱乐、广告等，这将大大增加媒体内容的丰富和多样化，满足不同用户的需求和喜好。还可根据用户的反馈，实时地调整视频的内容和形式，提高用户的参与度和满意度。此外，强大的数据和智能支持，文生视频模型还可以打破语言和文化的壁垒，生成适合不同地区和群体的视频内容，助力媒体的国际传播。

创意与信息采集的角色更加重要

对视频制作而言，以往的岗位，可以分为创意和实现创意两种，今后在视频大模型的冲击下，后者的规模将受到较大影响甚至消失，前者的含金量将水涨船高。对新闻采编而言，信息采集和编辑制作是作品的两大组成部分，在语言和视频大模型的双重夹击下，未来编辑制作环节将被进一步弱化，采集环节的重要性更加凸显。作为媒体从业者，应及时洞察技术在媒体产生的新趋势，一方面积极运用新技术提升新闻制作的效率和质量，另一方面加强创意策划能力，提高对新闻线索的敏感度和获取能力，创造高质量新闻内容，保持自身竞争力。

内容安全和真实性的挑战

由于文生视频模型可以轻易地复制和重现现实世界中的图像和场景，没有妥善的监管和审核机制，可能会导致生成的内容违反相关法律法规或是制造不适宜的内容。其次，当模型可以轻松创造出栩栩如生的虚假内容时，区分真实与虚构变得更加困难。近日，用真实拍摄的视频冒充Sora出品的“反向创作”层出不穷，甚至成为流行玩法，网友也承认，若离开OpenAI的官方水印，无力分辨视频真假。随着Sora们在媒体行业的应用越来越广泛，确保生成内容的安全和真实性是一个复杂但必须解决的问题。这不仅涉及到鉴别技术的进步，也涉及到法律、道德和媒体自身的自律。

媒体当前仍需冷静

面对Sora划时代的视觉冲击刺激，媒体本身的焦虑情绪也是责任的体现，但大干快上的追随变革，希望迅速有成果落地并不现实。当前Sora并未对公众开放，其实用性和未来潜力暂不可知，需耐心等待后续进展。在Sora开放后，参考ChatGPT的例子，因非开源和客观原因限制，在国内较难实现大规模应用，更适合小范围探索，并及时吸取在国外落地的有益经验，做好客观条件成熟后的行业变革准备。

而对国产视频生成大模型，一方面既要正视当前存在的差距，摒弃急功近利的思想，再对其多一点耐心。另一方面应坚定自信，人工智能并非造神的玄学，OpenAI的抢占先机也并不意味着后来者再无机会。在原理和路线都较为清晰的前提下，国产AI的进展，依旧充满可能性。

小新智媒©出品

作者 | 孙光旭

编辑 | 李诗诗

点击以下关键字查看往期精彩内容

从信息茧房到知识海洋：数智时代媒体如何创新构建信息生态

媒体与AI厂商如何合作，防范风险的边界又在哪

从“云优先”到“数优先”，媒体业务何以创新

点击“阅读原文”，浏览今日「新华日报」

小新智媒

关注传媒、技术发展趋势