智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

科技 2024-11-11 21:15 广东

来源：学术头条

早在 2021 年，我们便开始探索如何基于视频数据大规模训练视频生成模型，先后推出了 CogVideo（Hong et al. 2022）和 CogVideoX（Yang, Teng et al. 2024）系列模型。

CogVideoX 团队在数据筛选、模型结构、视频理解、transformer 架构和训练框架等多个方面进行了多项创新，并验证了 scaling law 在视频生成方面的有效性。

2024 年 7 月，清言上线了国内首个面向公众开放的视频生成产品“清影”。如今，清影迎来了重要升级：10s 时长、4k、60 帧超高清画质、任意尺寸，自带音效，以及更好的人体动作和物理世界模拟。

具体体现为：

模型能力全面提升：在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。
4K超高清分辨率：支持生成 10s、4K、60 帧超高清视频，视觉体验拉到极致，动态画面更加流畅。
可变比例：支持任意比例的图像生成视频，超宽画幅也能轻松 Hold 住，从而适应不同的播放需求。
多通道生成能力：同一指令/图片可以一次性生成 4 个视频。
带声效的AI视频：新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

此次新清影升级，基于 CogVideoX 模型的最新技术进展和我们最新推出的音效模型 CogSound。

在这篇博客中，我们将主要介绍 CogVideoX 的最新技术和音效模型 CogSound 的技术概况。

CogVideoX：模型进一步升级

CogVideoX 是我们在视频生成领域的最新成果，在内容连贯性、可控性和训练效率等方面实现了多项创新。

先看 demo：

大幅度的镜头调度

细腻的人物表演

下图为 CogVideoX 的模型架构：

图｜CogVideoX 架构

众所周知，数据是大模型训练的关键，但相当一部分视频数据的分布噪声很大，并不适用于视频生成模型的训练。这些问题包括（1）经人工编辑的视频可能扭曲真实动态信息，（2）因相机抖动和设备不达标等拍摄问题导致的视频质量大幅下降。除了视频的内在质量，视频数据对模型训练的支持程度也至关重要。我们将动态信息最少或动态方面缺乏连通性的视频看作是“是有害的”。为此，我们专门构建了一个自动化的数据筛选框架，来过滤不良数据。

针对内容连贯性问题，我们自研了一个高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至 2% 大小，大大减少了视频扩散生成模型的训练成本和难度。我们将因果三维卷积（Causal 3D convolution）作为主要模型组件，移除了自编码器中常用的注意力模块，使得模型具备了不同分辨率迁移使用的能力。同时，在时间维度上因果卷积的形式，也使得模型具备了视频编解码从前向后的序列独立性，便于通过微调向更高帧率和更长时间泛化。在工程部署方面，我们基于时间维度上的序列并行（Temporal Sequential Parallel）对变分自编码器做了微调和部署，使其能够在更小的显存占用下支持极高帧数视频的编解码。

图｜3D VAE 结构由一个编码器、一个解码器和一个潜空间 regularizer 组成，实现了从像素到潜空间的 8×8×4 倍的压缩（a）。时间因果卷积的上下文并行实现（b）。

为解决大多现有视频数据缺乏对应描述性文本或描述质量低下的问题，我们自研了一个端到端的专门用于标注视频数据的视频理解模型 CogVLM2-caption，为海量视频数据生成详细的、贴合内容的描述，进而增强模型的文本理解和指令遵循能力，更好地理解超长、复杂的 prompt，生成的视频也更符合用户的输入。

图｜我们使用 Panda70M 模型生成短视频字幕，提取帧来创建密集图像字幕，并使用 GPT-4 将其汇总为最终的视频字幕。为了加快这一过程，我们使用 GPT-4 对 Llama 2 模型进行了微调。

我们也自研了一个融合文本、时间、空间三个维度的 transformer 架构。该架构摒弃了传统的 cross attention 模块，在输入阶段就将文本 embedding 和视频 embedding concat 起来，以便更充分地进行两种模态的交互。我们通过 expert adaptive layernorm 弥补了文本和视频两个模态在特征空间上的差异，从而更有效地利用扩散模型中的时间步信息，使得模型能够高效地利用参数，进而更好地将视觉信息与语义信息对齐。

其中，注意力模块采用了 3D 全注意力机制，先前的研究通常使用分离的空间和时间注意力或分块时空注意力，它们需要大量隐式传递视觉信息，大大增加了建模难度，也无法与现有的高效训练框架适配。

在位置编码模块方面，我们设计了 3D RoPE，有效提升了在时间维度上捕捉帧间关系的能力，建立起了视频中的长程依赖。

最后，为了提高训练效率，我们构建了一个扩散模型高效训练框架，通过各种并行计算和极致的时间优化，我们能够快速地训练较长的视频序列；借鉴 NaViT 的做法，我们的模型可以同时训练各种不同分辨率、不同时长的视频，而无需对视频进行裁剪，从而避免了因各种裁剪可能导致的偏差，同时模型也具备了生成任意分辨率视频的能力。

基于过往的研究成果，我们已经验证了 scaling law 在视频生成方面的有效性。在未来，我们将在继续 scale up 数据规模和模型规模的同时，探索更具突破式创新的新型模型架构，进而更高效地压缩视频信息，以及更充分地融合文本和视频内容。

为了支持广大开发者，我们将 CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V 进行了开源。

开源地址：https://github.com/thudm/cogvideo

CogSound：为无声视频，增添动人音效

音效模型 CogSound 是我们多模态模型家族的最新成员，能够根据视频自动生成音效、节奏等音乐元素。

基于 GLM-4V 的强大视频理解能力，CogSound 能够准确识别并理解视频背后的语义和情感，并为无声视频添加与之相匹配的音频内容，甚至可以生成更加复杂的音效，如爆炸、水流、乐器、动物叫声、交通工具声等。

先看 demo：

哥斯拉

赛车引擎轰鸣

篝火

森林

CogSound 实现了更高效的音频合成过程、以及音频与视频在语义层面的高度一致性，具有更好的连贯性和平滑过渡。

图｜CogSound 架构

CogSound 的强大音效生成能力主要得益于以下三方面技术：

基于 Unet 的潜空间扩散：高效音频生成

V2A 技术通过采用潜空间扩散模型（Latent Diffusion Model），将音频生成过程从高维的原始空间转移到低维潜空间，并且采用了经过优化的 U-Net 结构，作为扩散模型的核心框架，从而大幅度降低了计算复杂度，同时保持了生成音频的高质量和高效率。这一设计提升了音频合成过程的性能，使其在复杂任务下仍能高效执行。

分块时序对齐交叉注意力：加强音视频特征的关联性

通过引入分块时序对齐交叉注意力（Block-wise Temporal Alignment Cross-attention）机制，优化视频长序列与音频特征之间的特征匹配。V2A 技术通过学习帧级视频特征与音频特征之间的关系，将视频和音频的特征精确连接，强化音频与视频在时序和语义层面的高度一致性，实现精准的音视频映射，确保每一帧画面都能在音符中找到自己的位置，每一个音符也能在视频中精准呼应，音频与视频的语义在同一频率上共振。该机制确保生成的音频与视频内容在语义层面保持高度一致，消除传统方法中可能出现的偏差和失配。

旋转位置编码：提升时序建模精度

V2A 技术在架构中整合了旋转位置编码技术，通过为序列中的每个位置提供唯一标识并捕捉位置间的相对关系，让每个视频帧的位置都拥有独特的“坐标”，在音频生成中有效提升了时序一致性，确保音频序列的连贯性和过渡自然性，尤其在处理长时序任务时，表现出更高的稳定性和准确性，避免音频生成中的“断层”或“错位”。

多模态，通向 AGI 的必由之路

我们认为，真正的智能一定是多模态的。因此，我们希望包括文字、图像、视频、语音和视觉等模态在内的智谱多模态大模型家族，能够进一步提高大模型的应用和工具能力。

智谱是最早布局多模态大模型技术的公司。从2021年开始在多模态文生图、文生视频领域先后研发了CogView（NeurIPS’21）、CogView2（NeurIPS’22）、CogVideo（ICLR’23）、RelayDiffusion（ICLR’24）等。

目前，智谱已经构建了独家、完善、原创的多模态模型矩阵。包括语言模型、图像生成和理解模型、视频生成和理解模型和 10 月底刚刚发布的端到端情感语音模型 GLM-4-Voice。随着音效模型 CogSound 的加入，多模态大模型家族在声音模态方面实现了人声、音效的多链路布局，健全了智谱基于图像、视频和声音的多模态模型矩阵。

最后，一起欣赏一支短片，其中的画面、音乐、音效和人声均由 GLM 多模态大模型生成。

视频生成——CogVideoX
音效生成——CogSound
人物旁白——GLM-4-Voice

作者：学术君

如需转载或投稿，请直接在公众号内留言

AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

最新文章

性能堪比o1？阿里mRAG新框架开启多模态动态检索新时代！

格局打开！马斯克的Grok免费开放给所有人了！

和Sora掰手腕！谷歌升级了视频模型Veo 2和Imagen 3。

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

ECCV 2024 | 扩散视觉Transformer：基于Transformer生成图像

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

ECCV 2024 | BK-SDM：一种轻量级、快速且廉价的Stable Diffusion版本

极越，“暴雷”了！

别吹Sora了，实测一言难尽。甚至分不清人脸和猪？？

985教授发表1226篇论文，被质疑“学阀”“水文”，本人回应！

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

AAAI 2024 | 即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

高中生中了顶会，还是一作。。。

字节团队提出 SuperClass 告别CLIP ，革新图像文本预训练分类技术！

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

NeurIPS 2024 | 融合现实与虚拟：人脸二维码生成技术开启新时代

网易深圳游戏部门全被裁？？

北大发布ConsisID：无需训练Lora，就可以定制化个人视频写真！

YOPO (You Only Prune Once)：给LLaVA做剪枝，大幅缩减多模态大模型计算量至12%！

雷军大学时候的论文，不需要参考文献

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

字节大瓜后续，GPU集群被投毒，索赔800万！

Kimi开源底层推理框架，1小时GitHub揽星1.2k

ArXiv | RealisHuman：用于修复生成图像中畸形人体部件的两阶段方法

RAG还是微调，怎么选？

Sora开放前夕，最好的视频生成模型是哪个？

国产AI视频生成CogVideoX v1.5，开源。

90%员工月入2-5万？互联网大厂月薪分布揭示真相

一位阿里P9的年薪和家庭资产

提升篇 | 优化YOLOv8以加快推理速度

中文版的TPAMI，你听说过么！

绝了，图片秒变代码，开发越来越简单了！

谷歌浏览器，要被强制出售！

Python优雅地书写LaTeX

又一985，落地深圳！

医图论文 Arxiv'24 | CAMS: 基于Mamba的无卷积和无注意力的图像分割

谷歌2024博士奖学金名单公布

喜提 TPAMI 顶刊！！！

网易高管贪污，基层裁员

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

如何在自定义数据集上训练 YOLOv8 实例分割模型

何恺明大神在MIT的秋季最新课程！附课程地址

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

顶会新方向！全新多模态大模型统一分割框架

被美国“制裁”的中国大学名单。。。

IC-Light V2：AI打光细节完美保留！

Pytorch2.x时代，关于C++部署的讨论

优化计算机视觉和图像处理中的图像格式：OpenCV中的PNG、JPG和WEBP

15岁，7年开发经验！初中生！开源项目被数百万收购

ECCV 2024 Oral | Co-Instruct: 让通用多模态大模型学会比较视觉质量

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉