▎改变世界的Sora已经公开发布。一位AI视频技术专家对钛媒体App坦言,“此前先机都已经被OpenAI‘清零’,今天对于国产AI视频生成行业来说可能是一场‘噩梦’。”
作者|林志佳
编辑|胡润峰
本文首发于钛媒体APP
“改变世界的产品”来了。
钛媒体AGI获悉,北京时间12月10日凌晨,美国OpenAI公司推出 AI 文生视频模型Sora的新版本Sora Turbo,称其比2月预览的Sora模型更快,可生成最高1080p分辨率、最长20秒视频,支持用户输入文字或上传图像,并上线全新UI界面,以便对生成视频进行修改、创建、扩展、循环、混合,或用文本生成全新的内容。
OpenAI称,Sora Turbo将免费提供给ChatGPT Plus和Pro用户,Plus用户每月最多可以生成50个480p分辨率视频,每月20美元(约合人民币145元);Pro订阅者则最多可生成500个视频,并支持20秒时长、1080p分辨率,可下载无水印版视频,对应每月费用200美元(约合1450元)。
作为OpenAI的重要世界模拟器,你可以看到,上面这组Sora演示画面能够实现一致性和动作连贯性,流畅度也比之前Sora预览版高很多。
OpenAI CEO奥尔特曼(Sam Altman)表示,“视频对 OpenAI 来说很重要,我想分享三点:首先,我们热衷于为创作者打造工具。这种创造文化对我们至关重要,也是我们希望人类利用 AI 的方式之一。在早期测试者中,我们观察到一种新型的协作创作动态,这不仅有趣,而且显示了 AI 创意工具的潜在使用模式;第二,我们不希望这个世界只是科技。如果 AI 系统主要通过文本来与人互动,我认为我们错过了一些重要的东西。我们希望我们的 AI 能理解并生成视频,我认为这将深刻改变我们使用计算机的方式;第三,这对我们的AGI路线图至关重要。视频将是一个重要的环境,我们或AI将在这里学习到很多关于如何实现我们在世界上所需的目标。”
国内对于此次Sora Turbo的发布看法不一。
多位 AI 行业人士向钛媒体App表示,这是改变下一个 AI 视频生成领域的新契机。也有 AI 视频领域技术专家王海(匿名)对钛媒体App坦言,“此前先机都已经被OpenAI‘清零’,今天对于国产AI视频生成行业来说可能是一场‘噩梦’。”
事实上,随着Sora预览版公布,过去300多天引爆了全球 AI 视频创业热潮,国外Runway、Pika、HeyGen都曾声称可以超越Sora,字节、快手、阿里、腾讯等互联网科技巨头也纷纷公布 AI 视频产品,使用者超过百万;智谱、生数、爱诗科技、智象未来等AI 视频初创公司则已经开始从产品转向商业化。AI 短剧导演陈坤曾透露,AI使得的制作周期从通常的3-6个月缩短到了2个月,成本达到传统制作流程的1/4以下。
生数科技联合创始人、CEO唐家渝早前向钛媒体App表示,“整体上来讲,我们(中国)追赶Sora肯定比追赶GPT-4容易一些。今年一定能达到Sora目前版本的效果,很难说是三个月还是半年(笑),但这件事我们的信心还是非常足的。”
一场与Sora的中美 AI 视频生成竞争已经爆发。
生成一个视频0.75元
市场规模将超180亿
视频大模型正加速竞赛
“为什么AI视频生成这种产品,优爱腾(优酷、爱奇艺、腾讯视频)和B站不做,却被快手可灵做了出来?”
早前一场私下讨论中,有投资人对一位即将做 AI 视频生成的创业者进行上述质询。他认为,这轮 AI 视频生成的机会已经与传统互联网视频领域有很大不同,优酷、爱奇艺、腾讯视频都不再做 AI 视频领域,但影视行业却看到了发展需求。
2024年2月,OpenAI发布视频生成模型Sora,首次由 AI 生成了长达1分钟的多镜头长视频,输入寥寥数语便能生成效果炸裂视频,镜头感堪比电影,震惊全球。
随后,全球掀起了一场关于Sora的讨论风暴,犹如两年前的ChatGPT爆火,大量 AI 公司以做“中国版Sora”为目标,众多企业、教授、互联网大厂都下场参与其中。
清华大学计算机科学与技术系博世AI教授、生数科技创始人兼首席科学家朱军,曾任字节跳动AI Lab总监、爱诗科技创始人王长虎,前京东集团副总裁、加拿大工程院外籍院士、智象未来创始人梅涛,新加坡国立大学校长青年教授、潞晨科技创始人尤洋等人都已进入 AI 视频这一“红海”赛道当中创业。
事实上,红杉资本2023年发布的一篇关于生成式 AI 发展进程的预测报告中表明,在历经文生文、文生图的升级迭代后,底层大模型技术迭代放缓,因此,视频方向将是 AI 领域需要重点关注的方向之一,因为视频杂糅了文本、语音、图像等多维度内容,有更多的想象空间。
所谓生成式 AI 视频生成,就是通过计算机视觉、机器学习、ViT架构等多种AI技术手段,可实现视频内容生成过程的自动化。
无论是文生视频,还是图生视频、视频生视频,AI 驱动的视频生成工具的使用不断增加,将有助于增强视频制作工作流程,为影视、游戏、培训与教育、营销与广告、社交媒体等领域发展提供更多增长空间。
据Fortunebusinessinsights数据,2024年,全球 AI 视频生成市场规模预计达6.148亿美元,预计到2032年,整个市场规模将超过180亿元,增至25.629亿美元(约合人民币186.36亿元),年复合增长率19.5%,市场前景广阔。
早在Sora发布之前,2023年1月起,Runway、Genmo、英伟达、Pika等海外公司都迅速公布 AI 视频生成和多模态技术产品。而随着Sora爆火,AI+视频技术和产品正在迅猛升级迭代,诸如电影、广告、视频剪辑、视频流媒体平台、UGC 创作平台、短视频综合平台等众多行业有望受益。
截至目前,国内 AI 视频生成参与方主要分为三类:
智谱、生数科技(清华系)、爱诗科技、智象未来HiDream(中科大系)等初创公司和产业链上下游企业;
快手、字节跳动、腾讯、阿里等拥有短视频和 AI 技术的互联网科技龙头;
TeleAI、智源等央国企搭建的AI研究院和新型研发机构。
在这其中,智谱、生数、爱诗科技、智象未来这些初创公司都已经从技术迭代转向了商业化变现,而快手、腾讯、阿里都已逐步为C端提供服务,像腾讯已表达“不急于商业化”的态度。
商业化层面,AI视频生成提供To C端、To B端服务两种。如今,不少AI产品已经开始进军海外,并且推出了较为完备的会员付费体系,快速进行商业化变现。
C端层面,快手可灵、字节即梦、智谱清影、生数Vidu都提供每月的付费服务,或者是有一定限额免费生成AI视频;而B端层面,快手可灵、字节即梦(火山引擎)、生数Vidu、爱诗科技、智象未来等都提供API接口和相关解决方案服务。
以爱诗科技为例。
爱诗科技销售负责人王平(化名)告诉钛媒体App,其主要售卖长达5秒的PixVerse V3和V2.5版本,V2.5版本价格低至每次调用API价格为0.75元/张,一次生成5张左右,也就是3.75元;V3版本提供2倍的价格,即每次调用API价格为1.5元/张,也是一次生成5张,也就是7.5元一次,如果有新功能价格则增加一倍。
同时,爱诗科技需要与企业签订电子版合作协议,预付费价格包括1.5万元/3万元/12万元几个档位,最高可享受8折优惠,如果有新功能价格则增加一倍,当然这也包括一些合同时间限制。
王平强调,爱诗科技这种价格档位是行业里面最低的,低于其他竞争对手(生数、可灵)的报价,但性能效果和其他同行差不多。
唐家渝透露,目前生数Vidu To B版本向每位客户(API)的每月使用费可以从10万到100万元,大部分是预付费方式,客户包括影视、互联网、营销广告等领域;而To C端,Vidu提供免费版和3种收费机制,按月度订阅,标准版、高级版、尊享版价格依次为19.99美元、59.99美元、199.99美元(约合人民币145.22元、435.80元、1452.83元),按年订阅价格95.99美元起,可去水印和商用,并且拥有更多新功能。
同样是清华系的智谱AI,公布支持生成6秒时长的 AI 视频生成产品“清影”,目前也已经公开测试和开源,付费模式层面,如果加速时间,付费5元,解锁一天(24小时)的高速通道权益;付费199元,解锁一年的付费高速通道权益。
然而,由于技术尚未足够成熟,目前市面上的文生视频模型仍然存在一些缺陷。
例如,生成视频在画质、细节、真实感等方面仍与真实视频存在差距,且用户对视频生成过程的控制能力有限,只能通过修改文本提示来间接影响视频生成效果,而文本与视频的语义匹配度不足,也会导致生成效果不及用户预期。
此外,国内 AI 视频生成产业链依然不成熟,面临算力稀缺、数据需要多轮训练等情况。而且,AI 视频成本也很高,整个经济下行导致市场需求低于预期,很多企业已经把商业化转向了KA级大客户和大项目,但这种大型项目回款较难,所以生数、智谱等 AI 企业都在其中寻找“商业化平衡”。
钛媒体App则了解到,有一家国内 AI 视频生成公司于去年成立,就已经从企业客户处获得4000万元的收入,今年预计该公司销售收入将超过1亿元,原因是他们盯上了一块更大的蛋糕:AI 短剧市场。
短剧近年来太火,打开App Store应用商店,榜首基本被短剧应用霸占。用户就爱这种几分钟的“快餐”,剧情快,看着过瘾。市场规模方面,2023年,短剧就已经到了373.9亿元,比前年暴增267.65%,这一数字已经顶得上电影票房的七成了,今年预计还要突破500亿,直逼电影市场。
有行业人士私下向钛媒体AGI解释称,越南等东南亚市场拥有大量短视频和短剧市场需求,很多连续剧需要配音翻译、非事实性视频输出,这些都已需要 AI 视频技术的加持,目前AI短剧单一订单价格基本在数亿元规模。
多位 AI 领域行业人士表示,目前初创企业对于项目的商业“转化率”要求越来越高,而且对于商业化诉求极为强烈,有一些 AI 视频生成企业甚至进入到上游算力赛道、下游影视公司赛道进行议价,通过“打包”方式获得更大的机会点。
AI生成视频仍无法彻底替代影视行业
“为什么美国的互联网大厂,没有每个人都做一个视频生成模型,而中国的腾讯、字节却在做?”最近,一位AI视频行业人士向钛媒体App吐槽称,国内 AI 视频生成领域也开始“卷”起来了,价格战、舆论战、销售战都在爆发,但微软、谷歌、Meta这些美国科技巨头却没有任何视频模型产品。
很显然,从算力、算法和数据成本角度考量,中国 AI 视频大模型公司正加速商业化,寻找到落地场景,已经与美国 AI 领域出现不同的“打法”。
智谱AI CEO张鹏则认为,AI生成视频无法彻底替代影视行业,真正进入电影尚需时日。“AI行业对多模态模型的探索还处于初级阶段。”
但 AI 视频“替代”之路正无限接近成为现实。
12月4日晚,谷歌DeepMind团队发布大型基础世界模型Genie 2,声称可以生成各种一致的世界,可玩时间长达一分钟,无论是视频生成效果,还是表现形式,都超出了普通AI视频生成的水平。
事实上,相对于OpenAI、Luma AI这些视频模型、多模态模型平台,谷歌、Meta等巨头都在瞄准一个 AI 未来的赛道:世界模型,而非多模态技术。而谷歌在今年5月发布的AI视频模型Veo如今已经开始内测。
此外,作为AI领域影响力最大的女性华人之一,斯坦福大学教授李飞飞于当地时间12月2日公布了其首个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。
在World Labs网站的演示里,由AI生成的场景均通过浏览器实时渲染而成,用户可以使用箭头键或键盘(WASD)键移动,然后单击并拖动鼠标实现交互,从而自由探索场景。World Labs的AI工具配备了可操控的滑块来调节模拟景深(DoF)与模拟推拉变焦(dolly zoom),当使用者将景深效果调至越强时,背景中的物体便会越发模糊,为整个视觉体验增添了更多层次感与真实感。
如今,AI 视频取代传统影视制作的潮流已势不可挡。今年6月,继好莱坞编剧在大罢工中要求限制AI撰写剧本之后,代表好莱坞演员权益的美国演员工会-美国电视和广播艺人联合会(SAG-AFTRA)表示,AI 在影视行业确有用武之地,但必须在演员同意并付费的前提下使用,譬如在计算机生成的动作、表情捕捉画面上,“AI应该是辅助、增强人类,而不是取代人类”。
因此,美国演员工会认为,应该在影视制作中约束 AI 的使用,以便保护好“人类员工”。就在今年12月,好莱坞级AI视频《Dream Machine》预告片公布,引发关注。
回到国内,今年2月3日,腾讯混元大模型宣布上线文生视频(text-to-video)能力,基于130亿参数,成为国内规模最大AI视频模型,并声称模型效果击败Runway Gen-3、Luma 1.6等;同日,中国电信公布文生视频产品。
如今,随着 Sora Turbo的发展,AI 视频生成这一新兴市场竞争将更为激烈。
留给“中国版Sora”们赶超的时间真的不多了。
(本文首发于钛媒体App)
2024T-EDGE全球创新大会闭幕,视频回放指路点击“阅读原文”进入活动官网,更多重磅嘉宾和精彩演讲不容错过!