国产AI视频生成CogVideoX v1.5，开源。

科技 2024-11-26 20:28 广东

来源： GLM大模型

自8月初以来，我们陆续推出了CogVideoX系列模型（2B、5B、5B-I2V），这些开源模型已成为行业领先，深受开发者喜爱。　

经过持续迭代，我们在此发布并开源最新版本的视频模型 CogVideoX v1.5。　

相比于原有模型，CogVideoX v1.5 将包含 5/10秒、768P、16 帧的视频生成能力，I2V模型支持任意尺寸比例，大幅提升图生视频质量及复杂语义理解。　

此次开源包括两个模型：

CogVideoX v1.5-5B
CogVideoX v1.5-5B-I2V

> 新清影

CogVideoX v1.5 也将同步上线到清影（https://chatglm.cn/video），并与新推出的CogSound音效模型结合，「新清影」将提供以下特色服务：

质量提升：在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强。
超高清分辨率：支持生成 10s、4K、60 帧超高清视频。
可变比例：支持任意比例，从而适应不同的播放场景。
多通道输出：同一指令/图片可以一次性生成 4 个视频。
带声效的 AI 视频：新清影可以生成与画面匹配的音效。

> CogVideoX 技术

下图为 CogVideoX 的模型架构：　

图｜CogVideoX 架构　

数据：　

数据是训练大型模型的核心，但许多视频数据存在分布噪声，不适合用于视频生成模型的训练。这些问题包括人工编辑扭曲真实动态和拍摄质量问题导致的视频降质。除了视频的内在质量，视频数据对模型训练的支持程度也至关重要。　

我们将缺乏动态连通性的视频视为有害数据，并开发了一个自动化筛选框架以过滤这些数据。

数据增强：　

针对现有视频数据缺少高质量描述文本的问题，我们开发了端到端的视频理解模型 CogVLM2-caption，专门用于生成精准的视频内容描述。这一模型提升了文本理解和指令遵循能力，能够更好地处理长且复杂的指令，确保生成的视频更贴近用户输入。　

图｜我们利用Panda70M模型为短视频生成字幕，通过提取关键帧创建图像字幕，再由GPT-4整合成视频字幕。为提升效率，我们还使用GPT-4对Llama 2模型进行了优化调整。　

算法：　

为解决内容连贯性问题，我们开发了高效的三维变分自编码器（3D VAE），将视频数据压缩至原来的2%，显著降低了训练成本和难度。　

图｜ 3D VAE结构包括编码器、解码器和潜空间正则化器，实现了像素到潜空间的8×8×4压缩（图a）。同时，采用时间因果卷积的上下文并行处理机制（图b）。　

我们采用因果三维卷积作为核心组件，去除了注意力模块，增强了模型的分辨率迁移能力。因果卷积还确保了模型在时间维度上的序列独立性，便于扩展到更高帧率和更长视频。在部署方面，我们通过时间序列并行技术优化了变分自编码器，使其在减少显存占用的同时，支持高帧率视频的编解码。　

架构：　

我们自主研发了一种融合文本、时间和空间三维度的 Transformer 架构。该架构创新性地取消了传统的跨注意力模块，通过在输入阶段就将文本和视频嵌入拼接，加强了两种模态的交互。利用专家自适应层归一化（expert adaptive layernorm）技术，我们缩小了文本与视频特征空间的差异，优化了扩散模型中时间步信息的利用，提高了参数效率，并实现了视觉与语义信息的精准对齐。　

注意力模块采用了创新的3D全注意力机制，与传统的空间和时间注意力分离或分块时空注意力相比，我们的方法减少了视觉信息的隐式传递，降低了建模复杂度，并兼容了高效的训练框架。　

此外，我们设计了3D旋转位置编码（3D RoPE），显著提高了模型在时间维度上捕捉帧间关系的能力，建立了视频中的长期依赖关系。　

训练：　

我们构建了一个高效的扩散模型训练框架，通过采用多种并行计算和时间优化技术，实现了对长视频序列的快速训练。借鉴NaViT方法，我们的模型能够处理不同分辨率和时长的视频，无需裁剪，避免了裁剪带来的偏差，并具备了生成任意分辨率视频的能力。　

我们已验证了 scaling law 在视频生成领域的有效性。展望未来，我们将在扩大数据量和模型规模的基础上，探索创新模型架构，以更高效地压缩视频信息，并更好地融合文本与视频内容。　

开源

代码：https://github.com/thudm/cogvideo

模型：https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

最新文章

性能堪比o1？阿里mRAG新框架开启多模态动态检索新时代！

格局打开！马斯克的Grok免费开放给所有人了！

和Sora掰手腕！谷歌升级了视频模型Veo 2和Imagen 3。

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

ECCV 2024 | 扩散视觉Transformer：基于Transformer生成图像

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

ECCV 2024 | BK-SDM：一种轻量级、快速且廉价的Stable Diffusion版本

极越，“暴雷”了！

别吹Sora了，实测一言难尽。甚至分不清人脸和猪？？

985教授发表1226篇论文，被质疑“学阀”“水文”，本人回应！

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

AAAI 2024 | 即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

高中生中了顶会，还是一作。。。

字节团队提出 SuperClass 告别CLIP ，革新图像文本预训练分类技术！

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

NeurIPS 2024 | 融合现实与虚拟：人脸二维码生成技术开启新时代

网易深圳游戏部门全被裁？？

北大发布ConsisID：无需训练Lora，就可以定制化个人视频写真！

YOPO (You Only Prune Once)：给LLaVA做剪枝，大幅缩减多模态大模型计算量至12%！

雷军大学时候的论文，不需要参考文献

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

字节大瓜后续，GPU集群被投毒，索赔800万！

Kimi开源底层推理框架，1小时GitHub揽星1.2k

ArXiv | RealisHuman：用于修复生成图像中畸形人体部件的两阶段方法

RAG还是微调，怎么选？

Sora开放前夕，最好的视频生成模型是哪个？

国产AI视频生成CogVideoX v1.5，开源。

90%员工月入2-5万？互联网大厂月薪分布揭示真相

一位阿里P9的年薪和家庭资产

提升篇 | 优化YOLOv8以加快推理速度

中文版的TPAMI，你听说过么！

绝了，图片秒变代码，开发越来越简单了！

谷歌浏览器，要被强制出售！

Python优雅地书写LaTeX

又一985，落地深圳！

医图论文 Arxiv'24 | CAMS: 基于Mamba的无卷积和无注意力的图像分割

谷歌2024博士奖学金名单公布

喜提 TPAMI 顶刊！！！

网易高管贪污，基层裁员

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

如何在自定义数据集上训练 YOLOv8 实例分割模型

何恺明大神在MIT的秋季最新课程！附课程地址

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

顶会新方向！全新多模态大模型统一分割框架

被美国“制裁”的中国大学名单。。。

IC-Light V2：AI打光细节完美保留！

Pytorch2.x时代，关于C++部署的讨论

优化计算机视觉和图像处理中的图像格式：OpenCV中的PNG、JPG和WEBP

15岁，7年开发经验！初中生！开源项目被数百万收购

ECCV 2024 Oral | Co-Instruct: 让通用多模态大模型学会比较视觉质量

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉