这是小新智媒的第260篇文章
2月16日,在毫无预热的情况下,OpenAI发布了文本视频生成模型Sora,以划时代的产品效果,迅速成为了全球热点。国内科技界面对Sora,震惊之余浓浓的焦虑感也随之蔓延,媒体圈当然也在其中,传媒行业诸多高层和专家均对Sora表达了重视和关注。如果说去年的ChatGPT让报刊网站等文字立身的传媒压力山大,如今的Sora更让电视台、视频平台瑟瑟发抖。
01
文生视频实际已经发展了若干年,并非Sora首创,Sora的出圈,只是因为效果太好,将这一领域从前沿推向了前台。Sora诞生前,较主流的模型是Gen-2,Pika1.0,Stable Video Diffusion,以及VideoPoet。
Stability AI推出的Stable Video Diffusion,脱胎于老牌AI文生图模型Stable Diffusion,是出现最早,也是当前唯一开源的主流文生视频项目。国内近年来出现的AI生成视频,大都是基于开源的Stable Diffusion模型。如早在2022年国庆,人民日报就使用此模型,制作推出了《我的祖国》MV,圈内外都引发了一定的关注。Stable Diffusion门槛最低,智能程度相对一般,但对AI生成视频的普及却是居功至伟。
2023年上半年,和Stability AI有千丝万缕联系的AI视频公司Runway先后推出了文图生成视频的Gen-1和Gen-2模型,智能性上进步较大,具备了“智能笔刷”等有趣的功能,因风头完全被同期学霸ChatGPT掩盖,关注度始终不高。
11月,两位华裔少女创办的AI视频模型Pika横空出世,综合效果对比Gen系列更胜一筹,出生成长在杭州的创始人郭文景,因头顶“天才富二代少女”的名号,在国内引发了一波不小的热度,产品本身仍未火出圈。
直到Sora出现,60秒的时长对比竞品普遍的3-4秒,人物和背景同时变化对比竞品的“二动一”,质感和真实性的大幅提升,使得其实现了对其他产品近乎碾压的效果,也让文生视频这一概念持续刷屏,妇孺皆知。
遗憾的是,国内虽经历了“千模大战”,但大模型多以文图为主,目前虽也有新壹科技发布的新壹视频大模型等产品,字节也在研发其Boximator模型,总体来说竞争力十分有限,与国外产品的确存在较大的代差。
在使用方式上,Gen和Pika都未开源,无法像Stable Video Diffusion一样部署在本地,仅能在discord等网站在线付费使用。而Sora未正式对公众开放,目前仅OPENAI自身和少部分受邀用户可以使用,吊足了大众的胃口,其生成的视频奇货可居,在各路社交平台发布一个火爆一个。
02
文本视频模型的三大技术路线
Sora的创新和潜力
近年来的AI能力大爆发,离不开两种模型的发展,分别是Transformer自回归模型和Diffusion扩散模型。其中Transformer适用于大语言模型,由谷歌最早提出和建立,却最终被OpenAI发扬光大,造就了ChatGPT的辉煌。Diffusion适用于图片处理领域,Stable Diffusion、DALLE-3、文心一格等文生图产品均是基于这一模型。
03
文生视频模型为媒体带来的机遇和挑战
暂且不论Sora是否具备“模拟世界”的更高层次能力,其在视频生产方面取得的巨大进步是毫无疑义的,Sora这一工具,保底也将能较大地改变视频制作的产业格局,对影视、传媒、广告等行业带来一定的影响。
媒体内容生产方式的改进
Sora为代表的文生视频模型,对视频拍摄和动画制作都是降维打击,既无需素材、建模,也无需灯光、摄影、剪辑,即可产出高质量的视频,将极大提升视频内容的生产效率,降低制作成本。通过自动化生成视频内容,个人和小型媒体机构能够以更低的成本生产高质量的视频,这对大型媒体机构来说,既是原有护城河消失的冲击,也是拥抱新技术降本增效的机遇。
媒体内容进一步丰富多样
文生视频模型可以根据任意的文本输入,生成各种类型的视频内容,如新闻、教育、娱乐、广告等,这将大大增加媒体内容的丰富和多样化,满足不同用户的需求和喜好。还可根据用户的反馈,实时地调整视频的内容和形式,提高用户的参与度和满意度。此外,强大的数据和智能支持,文生视频模型还可以打破语言和文化的壁垒,生成适合不同地区和群体的视频内容,助力媒体的国际传播。
创意与信息采集的角色更加重要
对视频制作而言,以往的岗位,可以分为创意和实现创意两种,今后在视频大模型的冲击下,后者的规模将受到较大影响甚至消失,前者的含金量将水涨船高。对新闻采编而言,信息采集和编辑制作是作品的两大组成部分,在语言和视频大模型的双重夹击下,未来编辑制作环节将被进一步弱化,采集环节的重要性更加凸显。作为媒体从业者,应及时洞察技术在媒体产生的新趋势,一方面积极运用新技术提升新闻制作的效率和质量,另一方面加强创意策划能力,提高对新闻线索的敏感度和获取能力,创造高质量新闻内容,保持自身竞争力。
内容安全和真实性的挑战
由于文生视频模型可以轻易地复制和重现现实世界中的图像和场景,没有妥善的监管和审核机制,可能会导致生成的内容违反相关法律法规或是制造不适宜的内容。其次,当模型可以轻松创造出栩栩如生的虚假内容时,区分真实与虚构变得更加困难。近日,用真实拍摄的视频冒充Sora出品的“反向创作”层出不穷,甚至成为流行玩法,网友也承认,若离开OpenAI的官方水印,无力分辨视频真假。随着Sora们在媒体行业的应用越来越广泛,确保生成内容的安全和真实性是一个复杂但必须解决的问题。这不仅涉及到鉴别技术的进步,也涉及到法律、道德和媒体自身的自律。
媒体当前仍需冷静
面对Sora划时代的视觉冲击刺激,媒体本身的焦虑情绪也是责任的体现,但大干快上的追随变革,希望迅速有成果落地并不现实。当前Sora并未对公众开放,其实用性和未来潜力暂不可知,需耐心等待后续进展。在Sora开放后,参考ChatGPT的例子,因非开源和客观原因限制,在国内较难实现大规模应用,更适合小范围探索,并及时吸取在国外落地的有益经验,做好客观条件成熟后的行业变革准备。
而对国产视频生成大模型,一方面既要正视当前存在的差距,摒弃急功近利的思想,再对其多一点耐心。另一方面应坚定自信,人工智能并非造神的玄学,OpenAI的抢占先机也并不意味着后来者再无机会。在原理和路线都较为清晰的前提下,国产AI的进展,依旧充满可能性。