智谱AI推出视频生成模型CogVideoX,30秒即可生成6秒视频

情感   2024-07-26 19:54   重庆  


点击蓝字 关注我们


二十届三中全会公报中,新质生产力的重要性被再次提及。作为新质生产力的关键驱动,人工智能发展的深度和广度,成为新质生产力现阶段乃至未来发展的重要指标。

目前,我国人工智能机构发展呈现百花齐放、百家争鸣的态势,一批先行者正在通过对数据、算力以及算法等多方面的开发探索,将人工智能技术场景化运用。

7月26日上午,智谱AI全新升级视频生成模型,推出了新一代产品——CogVideoX。

相较于传统视频生成模型,CogVideoX不仅具有快速生成、高效的指令遵循能力、内容连贯性、画面调度灵活性等特点,还在提升用户使用舒适度同时,支持文生视频和图生视频等多种方式

视频制作方面,CogVideoX仅需30秒即可完成6秒视频生成,相较于同类型应用,效率显著提升。

针对视频生成模型内容连贯性痛点,智谱AI自主研发了一套高效的三维变分自编码器结构(3D VAE)

该结构能够将原始视频数据压缩至原始大小的2%,显著降低了视频扩散生成模型的训练成本和难度。结合3D RoPE位置编码模块,该技术有效提升了在时间维度上对帧间关系的捕捉能力,从而建立了视频中的长期依赖关系。

做得快是基础,做得准才是关键。对于指令的理解,智谱AI还为CogVideoX打造了一款端到端的视频理解模型

该模型能够为大量视频数据生成精确且内容相关的描述。这一创新增强了模型对文本的理解和对指令的遵循能力,确保生成的视频更加符合用户的输入需求,并能够处理超长且复杂的prompt指令,还原物理世界中的运动过程。

Prompt:写实描绘,近距离,猎豹卧在地上睡觉,身体微微起伏

CogVideoX的模型采用了一种将文本、时间、空间三维一体融合的transformer架构。该架构摒弃了传统的cross attention模块,设计了Expert Block以实现文本与视频两种不同模态空间的对齐,并通过Full Attention机制优化模态间的交互效果。

据悉,自2021年起,智谱AI技术团队着手布局包括 text-2-img、text-2-video、img-2-text、video-2-text在内的多模态模型,并陆续研发并开源了CogView、CogVideo、Relay Diffusion、CogVLM、CogVLM-Video等多个模型。

目前,CogVideoX已向所有用户开放。用户可在智谱清言的PC端、移动应用端以及小程序端免费体验智谱清言的AI视频生成功能「清影」(Ying)。企业和开发者也可通过API调用方式,在智谱大模型开放平台bigmodel.cn,体验并使用文本生成视频和图像生成视频功能。


END



商界BIZTECH



商界BIZTECH
打造新科创第一媒体 做AI场景应用领航者
 最新文章