互动话题:
你用过AI视频生成工具吗?
作者|茯苓
今年2月,OpenAI推出的人工智能文生视频大模型Sora横空出世,它不仅能够根据文字指令创造出既逼真又充满想象力的场景,还可以生成一镜到底且长达1分钟的视频。然而,在一举点燃AI视频赛道后,Sora却高开低走,迟迟没有上线,变成了遥不可及的「期货」。
在Sora静默的半年多里,大洋彼岸的中国AI创企和互联网巨头纷纷入场,推出多款「中国造Sora」。
视频ChatGPT时代来了。
视频ChatGPT时代
在刚刚过去的夏天,爱诗科技、生数科技、智象未来、Morph Studio、智谱AI、Minimax等AI创企都推出了公众可用的AI视频生成工具。
7月24日,爱诗科技全球同步发布了「 PixVerse V2 」。相较于V1,升级版引入了自研的时空注意力机制,增强了空间和时间感知能力,使得视频生成更长、更一致、更有趣。
7月26日,智谱发布「清影」,8月6日宣布背后的模型CogVideoX-2B开源。
7月30日,生数科技发布「VIDU」,初步打入动漫影视圈。
……
除了AI创企,互联网大厂阿里、字节、快手、腾讯、昆仑万维、美图等也都入场「搅局」。
字节跳动旗下剪映于5月推出的AI创作平台「即梦」,已拥有文生图、文生视频、图生视频等功能。9月24日,字节又发布了两款视频生成大模型——豆包视频生成-PixelDance和豆包视频生成-Seaweed。接入豆包模型技术的即梦AI将会进一步加速视频生成的落地与规模化应用。
快手于7月推出的「可灵AI」后来者居上,在全球现象级爆红。可灵海外版的访问量,从零开始,持续保持3个月的增长,8月环比增长591.54%,9 月成为出海总榜 Top1,月访问量达 1765 万,在全球AI视频生成赛道排名仅次于Luma AI。
相较于其他模型只能生成几秒至十几秒的视频,可灵生成的最长视频可达3分钟。另外,在技术路线、训练数据质量等方面,可灵也有出色的表现,它还能真实还原物理运动规律,是最接近Sora的国内视频生成大模型。
数据来源:东吴证券研报
视频时长逐渐增加、分辨率和帧率不断提升、对复杂指令的理解和遵循更加到位、多个主体间的交互能力增强、镜头语言的切换愈加平滑……国内AI视频大模型正加速迭代成长,不仅能支持更加丰富的风格和题材类型,譬如黑白、3D 动画、2D 动画、国画等,而且适配于越来越多不同终端的画幅比例,包括电影、手机竖屏等。
AI视频大模型似乎分分钟化身超级导演,它会重塑视频制作行业吗?支持其发展的背后动力是什么?
算力,是大模型发展的一个驱动性因素。
视频数据量的庞大,意味着需要更多的算力来处理。Sora的训练算力需求是 GPT-4 的 4.5 倍,推理算力需求则接近 400 倍。
视频编解码技术同样也是硬件层面的核心技术。
视频编码的目的是将视频数据压缩成更小的文件,便于存储和传输;而解码则是将压缩的视频还原成可以播放的格式。这两者的效率直接影响视频的质量、存储空间的需求、网络传输的速度以及设备播放视频的流畅度。
字节跳动旗下的火山引擎去年就推出了自研的视频转码专用芯片,一台视频编解码芯片服务器的转码能力,相当于百台CPU服务器的算力。在同等视频压缩效率下,它的成本可以节省 95% 以上。智谱也自研了三维变分自编码器结构,将原视频空间压缩至2%大小,大福降低训练成本和难度,并开发了负面标签来识别和排除低质量视频。
如果说这些硬件技术为模型提供「体力」,那么数据、用户和场景则决定了大模型的「智力」和「财力」。
数据是训练视频大模型的基础。
抖音、快手作为全国最大的短视频平台,具有大量的用户、持续更新的短视频数据,以及多年以来积累的视频标签和分发技术,这些是其他公司难以企及的。
用户数决定了模型和产品迭代的速度。
短视频是单用户使用时长最高的娱乐模式,承载了最大数量的用户体量。2024年 6 月短视频 MAU 达 10 亿人,单用户每月平均使用时长达 61 小时,大幅领先于在线视频、手游、在线音乐、在线阅读。短视频行业占据了行业超九成的流量。
场景决定了盈利能力和商业模式的持续性。内容行业具有供给驱动需求的特点,好用的内容创作工具将先吸引创作者、再吸引用户。创作者天然地流向更低门槛、更好用、更便捷的创作平台,而内容消费者则天然地流向更有趣、更丰富的内容供给平台。因此,抖音和快手作为「中介」,首先吸引了创作者,从而吸引了更多消费者。
字节和快手原本就有运营多年的剪辑工具,分别为「剪映」和「快影」。通过引入AI 功能,吸引更多用户创作,提升用户使用时长。根据 QuestMobile 数据,2024 年剪映、快影的月人均使用时长分别为 50.2 分钟和 45.2 分钟,分别同比增长了 7.1%和 15.3%。更多的用户时长意味着率先开启商业化变现,更早启动商业飞轮运转。
AI视频的商业化
对于 AI 产品,商业化至关重要。在多数互联网产品的成本构成中,相当大的一部分为包含云服务在内的相对固定的运营成本,而这部分成本会随着用户规模的扩大逐渐摊薄。然而,AIGC 产品则不同,用户每进行一次交互,比如与 ChatGPT 对话或者用 Firefly 生成图片,都会在云端运算一次,从而产生相应的成本。用户使用得越频繁,成本就越高。
「在 AIGC 时代,如果不能第一天就向用户收费,就可能永远收不到用户的钱。」
回顾人工智能的发展史,从20世纪50年代人工智能技术诞生至今,先后四次引发大规模的关注,分别是专家系统时代、机器学习时代、深度学习时代和大模型时代。前三个时代,由于数据、算力、场景落地和投资回报等方面的原因,没能形成AI产业的商业闭环。而基于通用性、涌现性、强算力的特征,大模型时代最有望形成商业闭环。
以短剧为代表的短视频,就是AI 率先实现商业化的切入口。
一方面, AI 短剧有助于开辟新题材路径抢占内容竞赛优势,助力短剧生产降本增效、缩短创作周期、提高资金利用率。另一方面,短剧的单集时间短、制作周期短、市场需求大、创作类型相对固定,更有利于对 AI 大模型和应用进行快速验证,来自创作团队的反馈有助于大模型技术优化。
在传统影视领域,奇幻和科幻类型因特效成本高昂、制作周期漫长而发展受限,而这正是 AI 视频生成技术所擅长的领域。
今年7月,抖音和快手分别推出《三星堆:未来启示录》、《山海奇镜之劈波斩浪》两部AI生成短剧,都是科幻题材。在平台的带动下,两部短剧播放量迅速破亿,还吸引了不少创作者开始尝试AI视频生成。这代表着当前生成式 AI 技术所能呈现的最佳影视效果,也反映了 AI 短剧的商业化潜力。华策影视表示,今年 9-10 月将推出两部 AI 创作的微短剧。海外也有了 AI 微短剧商业化的案例,例如 Beelble AI 和DreamFlare AI。
目前 AI 已经能实现短时间的动画制作(生成动画短片和微短剧、自动化角色和场景设计),AI 虚拟拍摄(创造虚拟背景和环境,可以节省外景成本、缩短拍摄周期)、AI换脸、AI 生成虚拟人物、AI 视频搜索等。
AI视频生成技术的普及有望推动从「拍摄视频」逐步转变为「拍摄+AI 生成」并行模式。传统模式下,影视行业拍摄制作成本高昂,导致产能受限、存货周转率低、前期投入风险高昂。AI技术的引入可以显著降低制作成本、提高制作效率、提升影视内容产出、提高存货周转率,并让影视投资风险更加可控。以削减人员成本为例,传统影视制作行业通常牵涉规模庞大的人员团队,例如一个剧组可能多达上百人,倘若采用 AIGC 技术,从前期剧本创作到后期的剪辑,人员数量能够缩减超 2/3。
据东吴证券研报,在人机共创模式下,AI可降低影视制作成本约 43%;在全 AI 模式,AI可降低影视制作成本约95%以上。中国 AI 视频生成的行业潜在空间为 947~5858 亿元,其中 C端、B端市场空间分别为 2673 亿元、505 亿元。
随着生成式 AI 的发展,创建高质量的视频变得更加简单,普通人在社交媒体上输出高质量的视频内容成为可能。这会带来新的商业机会和应用场景。
人类天然具有表达的欲望。网文创作平台让更多人成为兼职作家,拥有出书和改编的机会。而正如火山引擎总裁谭待所说,「视频正迅速崛起为人类的第二语言,其丰富的表达手段和效果远超传统文字,为我们提供了更多元、更生动的交流方式。」
过去几十年,内容行业的大趋势是,内容创作门槛逐步降低,内容创作者数量逐步增加,内容生产机制从 PGC 转变为 PGC+UGC 共存。回顾近 20 年的互联网发展历程,在视频创作生态的初期,以 PR、FC、达芬奇为代表的传统工具延续其专业属性,一直服务于小众人群。在视频生态兴起时,以会声会影等工具为代表的国产桌面工具开启了平民化时代。直到以剪映为主要代表的新兴互联网工具出现,才真正开启了视频的个人化表达,并彻底引爆创作生态。视频创作工具是视频内容生态发展的关键驱动力。
短视频平台为普通人创造了表达的机会,让普通人的生活也能「被看见」。而AI 视频技术的普及,将更大程度地赋能普通用户。这个时代不再是传统意义上的用户被动接受视频内容,而是通过智能化和个性化的手段,让用户能够更主动地参与、创造和定制实时、沉浸的视频体验。让更多内容消费者转变为内容创作者,释放创意和灵感的价值。
1号结语
字节和快手都将 AI 视频放在未来发展的战略定位。快手可灵一个月完成三次模型升级,上演「狂飙式进化」。为了寻求AI 辅助创作的突破,剪映也已成为字节的P0 级项目。
抖、快之所以高度重视剪辑软件,不仅是为了创收,更多的考虑是争夺用户流量。
在移动互联网流量增长接近天花板的背景下,AIGC 成为存量流量竞争的焦点。AI视频技术的普及,将让用户从内容消费者转变为内容生产者,内容供给的爆发意味着用户注意力将成为更加昂贵和稀缺的资产。
或许谁能率先拥抱 AI,谁就能拥有更多、更稳定的用户流量。
参考文献
1.《中国版Sora哪家强?实测8款视频生成大模型,结果意外》
https://mp.weixin.qq.com/s/PzBtretxJpRa_NnrxZwXjQ
2.《字节视频大模型杀死比赛!无缝镜头切换,运镜技巧拉满,音乐创作和翻译自由也实现了》
https://mp.weixin.qq.com/s/D02xfcTLY3HGY-HO55H3bQ
3.《从威尔・史密斯鬼畜吃面到「Her」,这些幕后技术正在推动AI视频时代的到来》
https://mp.weixin.qq.com/s/EOyGYRNZZyr1fLccph7Myg
4.东吴证券研报:国产AI视频大模型应用落地先行,行业空间、降本幅度、竞争格局探讨
《传媒1号》原班打造视频评论新号:
《主编浅度》
“ 视频号同步上线,敬请关注