集大成者,Sora推开“理想国”大门
等待298天后,OpenAI的视频生成模型Sora终于正式上线。
当地时间12月9日,OpenAI在12天连更计划的第三日端出重头戏。Sora一经上线便吸引大量用户涌入,导致服务器被迫暂时关闭。此时,不少人才“后知后觉”地发现,原来,顶着“AI视频现象级工具”殊荣的Sora竟一直没有正式面向大众发布。
今年2月,OpenAI首次推出其文生视频模型Sora,因视频效果逼真、时长可达1分钟引发全球关注。OpenAI当时表示,Sora为模型理解和模拟现实世界奠定了基础,相信这一能力将成为实现通用人工智能的关键里程碑。但自那之后,Sora一直未对公众开放,仅面向部分视觉艺术家、设计师、电影制作人开启小范围测试。
Open AI本次发布的Sora新版本为“Sora Turbo”,Sora Turbo将作为独立的产品面向Chat GPT和Chat GPT Pro用户推出。用户可以生成分辨率高达1080p、最长20秒,并可以宽屏、竖屏或方形屏形式呈现,用户可以自带素材进行扩展、混音和混合,或者更新文本生成全新的内容。
月收费20美元的ChatGPT Plus用户可直接使用Sora,但每月最多生成50个480p视频或更少的720p视频,时长为5秒。新推出的ChatGPT Pro付费套餐支持更多的视频生成数量和更高的分辨率,时长达20秒。这一新套餐的定价高达200美元/月,还包含对o1等OpenAI所有模型的无限制访问权。
200美元/月的价格并不算便宜
根据Sora的技术报告,它是第一个表现出确认的“涌现”能力的视觉模型,标志着计算机视觉领域的一个重要里程碑!
视频生成模型的涌现能力是指在模型达到一定规模时,出现的一些复杂行为或功能,这些能力通常与模型参数的大小有关,并且这些行为或功能并未被开发者明确编程或预期。这种能力之所以被称为“涌现”,是因为它们是模型在不同数据集上进行广泛训练后自然形成的,超越了简单的模式识别或机械记忆。在视频生成模型中,涌现能力具体表现为能够生成高质量、高连贯性、高逼真度的视频内容,以及能够理解和执行复杂指令,生成符合人类创作水平的视频。
在技术实现方面,Sora模型可以理解成是一种融合Transformer模型与Stable Difusion的一种模型,通过Transformer原理的编码器-解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。GPT-4被训练以处理一串 Token,并预测出下一个 Token。Sora不是预测序列中的下一个文本,而是预测序列中的下一个"Patch”。
Sora 的输入将视频表示为Patch
在Sora融合的两大模型能力中,Transformer架构是AI向生成式跨越的重要一步,它本身是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重,其广泛应用于ChatGPT系列等大语言模型中(LLM),Transformer模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。注意力机制可以为输入序列中的任意位置提供上下文。
Transormer架构(左图Encoder,右图Decoder)
Stable Video Diffusion是文生图到文生视频的跨越,该模型的核心思想是将视频生成任务分解为两个阶段。首先它使用扩散模型将随机噪声逐步转化为与输入图片相似的图像。这一阶段是通过逐步添加细节来完成的,类似于将一张图片逐渐"放。
然后,在第二个阶段,该方法使用一个条件变分自编码器(cVAE)将生成的图像序列转化为视频。cVAE是一种生成模型,能够学习数据分布的特征,并根据特定条件生成新的数据样本。
在两大模型能力的叠加下,Sora很自然表现出“1+1>2”的效果,其在生成视频的质量、灵活性和时长上与之前的模型有代际差距。相较于 Pika、Runway 等之前的 AI文生视频工具,Sora 除了拥有视频向前扩展、视频拼接等功能外,还可以通过多镜头等方式生成相较于其他 A|文生视频工具更加复杂的视频,同时在时长、流畅度以及逻辑性方面表现出了显著的优势,并且初步具备了理解和模拟真实物理世界的能力。
Sora与其他AI文生视频模型性能对比
Open AI认为,视频生成模型是构建通用物理世界模拟器的一条有前景的道路,它使人工智能理解和模拟运动中的物理世界,迈向了一个新的高度。Sora 的发布也意味着AGI有望加速到来,是AGI实现过程中的重大里程碑事件,而不仅仅是视频生成。
当然,这只是Open AI方面的看法,其称Sora表现出来的涌现能力使其像是一个世界模拟器(World Simulator),但是世界模型(World Model)的提出者也就是Meta的首席科学家Yann LeCun并不同意,Meta发表论文《Revisiting Feature Prediction for Learning Visual Representationsfrom Video》并推出 V-JEPA 模型,通过学习图像和视频的表示,主要用于预测视频缺失的部分或者被遮住的部分,目标是希望从内在学习并理解物理世界的概念。
Yann LeCun提出的世界模型,它旨在通过构建对现实世界的抽象表示来帮助AI系统理解和预测环境的变化。这种模型的核心思想是模仿人类大脑处理信息的方式,通过感官感知周围事物,并将抽象信息转化为具体的心智图景,以便进行判断和行为。
Yann LeCun认为,大多数根据提示生成的逼真视频并不意味着模型能够理解物理世界,生成模型与基于世界模型的因果预测是两种截然不同的任务。生成模型的目标是生成看起来真实的视频,而世界模型的目标是理解物理世界并预测其未来状态。对于生成模型来说,可信视频的数量空间非常庞大,因此只需生成一个符合逻辑的样本即可算作成功。而对于世界模型来说,真实视频的合理延续数量空间要小得多,生成一个有代表性的片段是一个更难的任务,特别是在需要满足特定条件的情况下。
世界模型的强大之处在于其能推动更加智能化的机器人、生成式创作以及提高预测和规划的准确性。自动驾驶系统需要构建一个复杂而精确的世界模型,以应对复杂、动态、不确定的驾驶环境。这个世界模型需要包括道路结构、交通规则、车辆行为、行人动态等多种信息,并能够实时更新和预测。通过世界模型的支持,自动驾驶系统能够做出更安全、更合理的驾驶决策,提高驾驶的舒适性和合法性。
Genie模型可以接收文本提示、草图或想法,将其变成一个可以互动和玩耍的虚拟世界
而游戏领域,DeepMind团队发布的Genie模型就是一个基于世界模型的交互式环境生成模型,能够生成具有丰富细节和动态变化的游戏关卡或影视场景。用户可以对这些场景进行逐帧控制或修改,实现高度自定义的创作体验。这些世界模型不仅提高了内容生成的自动化程度,还能够通过用户的交互反馈不断优化和进化,使虚拟世界更具沉浸感和真实性。
这些,恐怕才是AI大模型的“理想国”,而技术持续迭代的视频生成大模型,只是让AI有了初步认知和了解世界基础。
国内AI视频生成的“战国时代”
在应用层,尤其是视频AI视频生成赛道,现在可谓是百花齐放、百家争鸣。文生视频AI公司爱诗科技创始人王长虎曾在今年2月Sora刚刚横空出世时预测,当信息可以在不同模式间自由转换时,具体到AI生成视频这条赛道,也会展现出无限可能。
目前在中国市场,这种可能性正在被初创企业团队和头部互联网企业们验证。
对Sora反应最为迅速的还是历史包袱小的初创团队们。值得一提的是,国内AI初创企业大多有高校背景,技术人才充沛,其中“清华系”尤其惹人注目。
成立于去年3月的生数科技,其业务主要集中于图像、3D、视频等原生多模态大模型的研发,CEO唐家渝本硕都就读于清华大学计算机系,首席科学家是清华大学人工智能研究院副院长朱军。
另一家在AI视频生成赛道比较惹眼的初创企业:智谱AI,同样是孵化于清华大学。成立于2019年的智谱AI在2022年8月,就发布了1300亿参数的GLM预训练大模型,直接对标ChatGPT。
在AI视频生成领域,两家技术背景雄厚的企业也反应迅速。
生数科技的Vidu大模型发布较早
Sora今年年初发布后,生数科技紧随其后推出文生视频模型Vidu。4月底Vidu首次亮相的时候,其首席科学家朱军称Vidu是“全面对标Sora”,能生成最长为16秒的视频,分辨率1080P,不过当时并没有开放试用。到了今年7月末,Vidu才正式上线,开放文生视频、图生视频两大功能,视频时长变为4秒和8秒两种时长选择,仍保持1080P的高分辨率,生成一段4秒的视频仅需30秒。
Vidu技术路线是目前国内大模型中最接近Sora的。生数团队提出了基于Transformer的网络架构U-ViT,将Transformer与Diffusion模型融合,主要应用于文生图,这一技术路线和Sora的DiT思路实际上不谋而合,效果如何就需要用户来评定了。
智谱也在今年7月末对外发布了视频生成功能“清影(Ying)”,面向所有用户开放。“清影”包括文生视频、图生视频两个核心功能,智谱AI称输入完成后只需等待30秒,就能生成最长达6秒,3:2的比例、1440*960清晰度的视频。
清影的底层技术是其自研的视频生成模型CogVideoX,该模型同样参考了OpenAI的Sora算法设计及其DiT架构。虽然通过优化,CogVideoX相比前代自研视频生成模型推理速度提升了6倍,但以产品硬参数来比较,例如时长、清晰度等,“清影”并不算领先。
初创企业阵营中,成立于2023年4月的爱诗科技大概是国内最早专注于AI视频生成的企业之一。爱诗科技创始人王长虎之前是字节跳动AI Lab总监,被几位前同事称为“技术大牛”,曾参与支持抖音、TikTok等产品的建设,团队技术人才也大多来自清北、中科院等高校。
爱诗科技的AI视频大模型及应用“PixVerse”今年1月上线时,最早是应用于海外产品,大模型支持文生视频功能,生成视频长度约数秒,海外上线一个月访问量就突破了百万。3月,PixVerse的中国版”爱诗视频大模型“上线内测,目前最新版本的PixVerse V3同样采用DiT基础架构,能够生成5秒和8秒时长的视频,支持包括16:9、9:16、3:4在内的多种视频比例。
目前国内AI生成视频领域的部分参与者
另一方面,拥有技术、资金基础的头部互联网企业,虽然响应慢了点,但在AI视频生成大模型的研发和更新强度上,不输初创团队。
快手的可灵大模型(Kling)、阿里的Tora、字节跳动的两款豆包视频大模型“PixelDance”“Seaweed”以及腾讯混元模型的文生视频功能等等,都在自家app海量的应用数据上飞速成长起来。
快手可灵在短视频领域应用较多
从效果数据来看,快手的可灵大概算得上是互联网头部企业阵营的代表。今年6月,快手大模型团队自研的视频生成大模型可灵上线,两个月后,可灵支持单次生成的视频时长增加至10秒,同时支持图生视频功能,并全面开放内测;最新版本中,其生成的视频分辨率可高达1080p,时长达2分钟(帧率30fps)。
快手等大厂们,因为原有的应用矩阵众多,在营销和渠道分发上显然更具优势。据快手官方数据,截至8月27日,已有超过160万人使用过可灵AI模型,并累计生成超1600万视频。
呼唤一站式平台
新生阵营和大厂们激战正酣,但从用户的角度来说,AI生成视频除了让“皇上和老十七互殴”“悟空掏手枪”“尔康刷手机”之外,后续的发展方向和商业模式如何改变,才能让AI生成视频真正在我们日常工作中有实质作用?
“现在的AI视频生成工具比较像素材库。”一家广告公司的负责人告诉记者,Sora之类的软件工具出来后,一线工作人员在剪辑短视频时的确省了很多时间和精力去找素材库,“直接通过文生视频的方式生成几秒到一分钟左右的短视频素材,再在剪辑工具中进行二次剪辑即可。”
将AI能力应用到了整个视频编辑的每个环节是未来的目标
但这实际上也并没有替代真正的工作流程,工作人员还是需要去多个其他软件产品上调配背景音乐添加、镜头转场、字幕添加、多余镜头删减等。
创意设计软件巨头Adobe的改变,或许给AI企业一个新的提示:将分散的设计工具重新集成。今年3月,Adobe推出名为“萤火虫”(Firefly)的系列创意生成AI模型,正式进军AI文生图领域,测试版本聚焦于图像生成和文本效果功能,直接整合至Experience Manager、Photoshop和Illustrator、InDesign和Lightroom五个现有应用中。
最初版本的演示视频中,设计者通过语言描述,选择图片风格、色彩、亮度、构图等参数,就可以使用Firefly获得插画作品和艺术字体。有业内设计人士评价,未来这种“一站式”应用提供商,才能真正辅助设计者进行图像、矢量图、视频编辑和3D建模。
而现在,Adobe宣布产品底层已经集成Pika以及正式发布的Sora,可以使用户在感受AI视频的创意生成同时,直接在Adobe的剪辑软件内对视频进行其他环节的修改,达到一站式产出的效果——快手的可灵、字节的剪映也正朝着这个方向努力。
跳过单一功能产品这一阶段后后,AI产品ToB的商业化可能也在增加,甚至让“卖铲子”的人再获商机,这些后文会详述。
降价与回本
“AI应用层带来增量的业绩兑现”这是国内外AI企业都期望的良性发展循环,在视频生成这个成本更高的赛道,尤其需要快速的商业化变现。
王长虎曾在业内会议上提到,如果想要复现Sora当前水平,需要万卡级别的算力来优化提升,算力需求可以类比OpenAI的大语言模型GPT-4。这里说的“卡”,指的是英伟达等头部芯片企业的旗舰GPU芯片,如A100、A800、H100等。
算力的稀缺是国内企业追逐高水平AI产品的阻碍之一
目前由于众所周知的原因,高性能显卡和云算力都是稀缺资源。按照腾讯AI Lab技术人员的说法,相比于图文,“视频大模型的算力使用密度和对显卡的集群效率要求更高”,而国内企业的算力储备用来训练视频生成模型都比较紧张,“如果没有确定的落地应用,基本没必要跟进投入”。
模型训练阶段算力需求大,视频生成阶段的推理算力需求也不低。信达证券研报指出,为吸引C端用户,目前国内单条AI视频的报价大概在0.3元-1.75元之间,远不足以覆盖这个企业成本。
所以除了在C端推出个性化应用外,转向B端大客户成了AI企业的共同选择。例如智谱,它很早就提出要做“全产品矩阵”,即底层大模型全自研,适配国产算力芯片,再到多模态的生成应用……其实早就跟消费、制造、游戏、医疗等行业上千家企业合作,提供降本增效的方案。
不久前,在香港科技大学举行的博士学位授予仪式上,英伟达创始人兼首席执行官黄仁勋在与港科大校董会主席沈向洋的对话中曾提到一个很形象的比喻,他说,目前AI算力和AI应用的关系,就像300年前的发电机和灯泡。
“300年前,通用电气和西屋电气创造出了‘消费者’来消费它们生产出来的电力,包括灯泡、烤面包机等等。”只有应用不断发展,才能证明AI的价值,但底层成本是目前的一大制约。