AIGC体验文字生成视频-可灵

文摘   2024-08-10 07:20   云南  

AIGC文字生成视频

可灵 快手AI团队自研的视频生成大模型
     快手于 2024 年 6 月 6 日推出的一款 AI 视频生成大模型的 AI 视频。可灵(KLING),是快手AI团队自研的视频生成大模型。生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。全球会员体系与国内相似,也分为三个类别,以月卡为例,三档会员价格分别为10美元、37美元和92美元,对应分别获得660、3000 、8000“灵感值”,可生成约66个、300个或800个5s高性能视频。除月卡外,还提供季卡、半年卡、年卡等多种套餐。

可灵使用了DiT架构,快手还对模型中的隐空间编/解码、时序建模等模块进行了升维处理。在隐空间编/解码上,快手自研了3D VAE网络,实现时空同步压缩,获得了较高的重建质量,在训练性能和效果之间取得了极佳平衡。在时序信息建模上,快手设计了一款计算高效的全注意力机制作为时空建模模块。该方法可以巧妙地融合时间与空间的信息,能对视频数据进行综合分析和处理,可精准捕捉到视频帧内的局部空间特征以及跨帧的时间动态特征,从而更全面地理解和再现视频中的运动信息。因此,从快速移动的物体、剧烈变化的场景,到复杂的人物动作,可灵都能精确捕捉,生成的视频内容动态性十足,同时具有很高的物理世界真实感。

体验

文字:5匹骏马在威尼斯运河中奔跑

是真还是假,真实逻辑上不允许的,但AI做到了。


相关解读

我们以最早的Sora技术参考解读:

  • Sora 简介:

    • Sora 是一个开创性的文本到视频模型,旨在理解和模拟物理世界的运动。

    • 它的目标是帮助解决现实世界中的交互问题。

    • 该模型能够生成长达一分钟的视频,同时保持高视觉质量和对用户提示的忠实度。

  • 模型特点和应用:

    • 能够从多样化的提示生成视频,包括城市和自然景观、动画和现实场景、具有多个角色和特定运动类型的复杂场景。

    • Sora 特别擅长从文本描述生成详细、准确的视频,涵盖从日常场景到幻想和历史设置的所有内容。

    • 使用扩散模型方法,将静态噪声转化为连贯的视频内容,经过多个步骤。

    • 结合了变换器架构,以实现卓越的扩展性能。

    • 使用一种新颖的表示方法,将视频和图像作为块的集合,类似于 GPT 模型中的标记,便于在多样化的视觉数据上进行训练。

  • 技术成就和研究技术:

基于先前研究: Sora模型建立在DALL-E和GPT模型的研究成果之上。DALL-E是一个能够根据文本描述生成图像的模型,而GPT是一个语言模型,能够生成连贯的文本。Sora结合了这两种模型的技术。

扩散模型方法: Sora使用了一种称为扩散模型的方法,这是一种生成模型,它通过逐步将噪声转化为清晰、连贯的视频内容。这种方法通常涉及多个步骤,从高噪声状态开始,逐渐减少噪声,直到生成最终的视频。

变换器架构: Sora采用了变换器(Transformer)架构,这是一种深度学习模型,特别适用于处理序列数据,如文本和图像。变换器架构因其在自然语言处理领域的卓越性能而闻名,Sora利用这一架构来提高模型的扩展性能。

视频和图像的新颖表示: Sora将视频和图像表示为“patch”(块)的集合,类似于GPT模型中的“tokens”(标记)。这种表示方法使得模型能够更有效地处理和训练多样化的视觉数据

DALL-E 3的重新描述技术: Sora还采用了DALL-E 3的一个技术,即重新描述(recaptioning)技术,以提高模型对文本指令的遵循度。这意味着模型能够更准确地根据文本描述生成视频。

安全性和政策遵守: 在技术发展的同时,Sora也在进行安全评估和政策制定,以确保其生成的内容是安全和合规的。这包括开发工具来检测误导性内容,并确保模型的使用遵循既定的政策。

  • 模型限制:

    • 在准确模拟复杂物理交互方面存在困难。

    • 有时会混淆空间细节或在生成的视频中无法保持一致的因果关系。

  • 安全措施和未来发展:

    • 在公开部署之前,Sora 正在接受严格的安全评估,包括红队评估潜在的危害和风险。

    • 开发检测误导性内容的工具,并确保遵守使用政策。

    • 与政策制定者、教育工作者和艺术家接触,探索有益的用例并解决担忧

市场风险:

1)AI 技术发展不及预期风险:不排除 AI 技术发展较为缓慢,导致行业应用拓展、对公司业务赋能效果不及预期的风险;

2)行业竞争加剧风险:不排除 AI 新技术的发展加剧行业竞争程度,从而使得个别企业市场份额流失的风险;


Megadotnet
为您介绍各体系平台的新闻,系统研发相关框架,组件,方法,过程,运维,设计。企业IT与互联网信息系统或产品解决方案。开源项目,项目管理。
 最新文章