4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源！

科技 2024-08-09 17:30 广东

国内首个人人可用的国产Sora「清影」，已经引起了AI视频圈的轰动！才发布6天，生成视频数就已经破百万。并且，智谱AI也将同源的视频生产模型CogVideoX，一并开源了。

7月26日，智谱发布AI 生视频产品「清影」，30秒将任意文图生成视频，并上线在他们的AI助手「智谱清言」上，被誉为是国内首个人人可用的Sora。

就在发布6天后，「清影」生成到视频数便已突破了百万量级。

今天，智谱AI宣布将与「清影」同源的视频生成模型——CogVideoX正式开源。

团队表示，希望每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型，从而推动整个行业的快速迭代与创新发展。

打开AI助手「智谱清言」即可体验

随着大型模型技术的持续发展，视频生成技术正逐步走向成熟。

以Sora、Gen-3等闭源视频生成模型为代表的技术，正在重新定义行业的未来格局。

然而，截至目前，仍未有一个开源的视频生成模型，能够满足商业级应用的要求。

CogVideoX系列包含多个不同尺寸大小的开源模型。

目前已经开源的CogVideoX-2B，提示词上限为226个token，视频长度为6秒，帧率为8帧/秒，视频分辨率为720×480。

它在FP-16精度下的推理仅需18GB显存，微调则只需要40GB显存。这意味着单张4090显卡即可进行推理，而单张A6000显卡即可完成微调。

代码仓库：https://github.com/THUDM/CogVideo

模型下载：https://huggingface.co/THUDM/CogVideoX-2b

技术报告：https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

目前，该项目已在GitHub上斩获了3.8k星。

下面，我们就来看看CogVideoX生成的效果到底如何？

一个木制玩具船，在模拟海浪的蓝色地毯上航行，宛如在真的海水行驶一般。

A detailed wooden toy ship with intricately carved masts and sails is seen gliding smoothly over a plush, blue carpet that mimics the waves of the sea. The ship's hull is painted a rich brown, with tiny windows. The carpet, soft and textured, provides a perfect backdrop, resembling an oceanic expanse. Surrounding the ship are various other toys and children's items, hinting at a playful environment. The scene captures the innocence and imagination of childhood, with the toy ship's journey symbolizing endless adventures in a whimsical, indoor setting.

一辆白色越野车沿着松树环绕的陡峭土路快速行驶，可以看到车尾的尘土飞扬。

其实这个场景对于AI来说，相对较难，只有正确理解了物理世界，才不会让生成的尘土在车前扬起。

The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

下面这幅在战乱中，人物表情细节的刻画，细腻丰富。

In the haunting backdrop of a war-torn city, where ruins and crumbled walls tell a story of devastation, a poignant close-up frames a young girl. Her face is smudged with ash, a silent testament to the chaos around her. Her eyes glistening with a mix of sorrow and resilience, capturing the raw emotion of a world that has lost its innocence to the ravages of conflict.

针对更宏观的场景，CogVideoX也能将白雪皑皑的森林、无人穿梭的宁静小路，生动地描绘出来。

A snowy forest landscape with a dirt road running through it. The road is flanked by trees covered in snow, and the ground is also covered in snow. The sun is shining, creating a bright and serene atmosphere. The road appears to be empty, and there are no people or animals visible in the video. The style of the video is a natural landscape shot, with a focus on the beauty of the snowy forest and the peacefulness of the road.

舌尖上的美食，还得看国产AI视频模型。烧烤架上烤制的鸡肉和青椒烤串，让人看了垂涎欲滴。

Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours

CogVideoX

见识到CogVideoX惊艳视频生成能力，你一定非常好奇这是怎么做到的？

VAE

视频数据因包含空间和时间信息，其数据量和计算负担远超图像数据。

为应对此挑战，团队提出了基于3D变分自编码器（3D VAE）的视频压缩方法。

其中，3D VAE通过三维卷积同时压缩视频的空间和时间维度，实现了更高的压缩率和更好的重建质量。

模型结构包括编码器、解码器和潜在空间正则化器，并通过四个阶段的下采样和上采样实现压缩。

时间因果卷积确保了信息的因果性，减少了通信开销。而上下文并行技术的采用，则可以适应大规模视频处理。

实验中，团队发现大分辨率编码易于泛化，而增加帧数则挑战较大。

因此，可将分两阶段训练模型：

- 首先在较低帧率和小批量上训练；

- 然后通过上下文并行在更高帧率上进行微调。

训练损失函数结合了L2损失、LPIPS感知损失和3D判别器的GAN损失。

专家Transformer

团队使用VAE的编码器将视频压缩至潜在空间，然后将潜在空间分割成块并展开成长的序列嵌入z_vision。

同时，使用T5将文本输入编码为文本嵌入z_text，然后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处理。

最后，反向拼接嵌入来恢复原始潜在空间形状，并使用VAE进行解码以重建视频。

数据

视频生成模型训练需筛选高质量视频数据，以学习真实世界动态。但视频可能因人工编辑或拍摄问题而不准确。

为此，团队开发了负面标签来识别和排除低质量视频，如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。

通过video-llama训练的过滤器，团队标注并筛选了20,000个视频数据点。同时，计算光流和美学分数，动态调整阈值，确保生成视频的质量。

视频数据通常没有文本描述，需要转换为文本描述以供文本到视频模型训练。然而，现有的视频字幕数据集字幕较短，无法全面描述视频内容。

为了解决一问题，团队提出了一种从图像字幕生成视频字幕的管道，并微调端到端的视频字幕模型以获得更密集的字幕。

这种方法通过Panda70M模型生成简短字幕，使用CogView3模型生成密集图像字幕，然后使用GPT-4模型总结生成最终的短视频。

除此之外，团队还微调了一个基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型，使用密集字幕数据进行训练，以加速视频字幕生成过程。

性能

为了评估文本到视频生成的质量，团队使用了VBench中的多个指标，如人类动作、场景、动态程度等。并排除了不适用于评估需求的指标，例如颜色指标，因为它可能误导视频生成模型。

此外，团队还使用了两个额外的视频评估工具：Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score，这些工具专注于视频的动态特性。

值得一提的是，团队已经验证了scaling law在视频生成方面的有效性！

未来会在不断scale up数据规模和模型规模的同时，探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。

团队表示，目前的视频质量还有很广阔的提升空间，期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。

此外，性能更强参数量更大的模型正在路上，敬请关注与期待。

参考资料：

https://huggingface.co/THUDM/CogVideoX-2b

https://github.com/THUDM/CogVideo?tab=readme-ov-file

来源：新智元

深圳龙岗智能视听研究院

人工智能 | 超高清

产业创新 | 技术孵化 | 成果转化

http://mp.weixin.qq.com/s?__biz=MzUyMzY3NDA5Nw==&mid=2247505787&idx=1&sn=54cb43f339c3736d0b9950fec386231b

智能视听研究院

建设具有国际影响力、华南地区最重要的视听技术创新基地，以及国家自主视听 AVS标准的运营总部和音视频处理和分析芯片设计、生产基地。

最新文章

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

航展附近这场无人机编队表演，竟用了钉钉AI助理的方案

当AI遇上广告，AKOOL 4000万美元营收一夜走红广告营销界

全球首个支持多主体一致性的国产视频模型诞生！视觉模型进入上下文时代

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

VP/XR/AIGC/数智人！VPS 2024上海国际虚拟制作大会亮点速递

马斯克招人策略曝光：9轮面试，底薪低于同行，只招“铁杆特斯拉人”

黄仁勋：AI算力集群会扩展到100万芯片，没有任何物理定律可以阻止

国创中心重点孵化项目：粤港澳超高清数创产业园正式开园！

用XR跨越现实与虚拟，享受《黑神话•悟空》超沉浸天命之路

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

比Flux更强大的文生图模型来了！秘诀是“集百家之长”

粤港澳超高清数创产业园暨超高清公共服务平台正式启动，诚邀您莅临参会！

Claude接管人类电脑编程，OpenAI反击，智能体大战一触即发

粤港澳超高清数创产业园：湾东智芯先锋项目，超高清视频产业应用示范新高地

Claude重磅升级，接管人类电脑12小时，已经学会摸鱼了

手机自动驾驶来了！首款国产AI智能体手机引爆端侧革命

智源发布原生多模态世界模型Emu3，仅靠预测下一个token统一图像文本视频

AVS感知无损压缩团体标准正式发布

研究院荣誉院长高文院士：AI科学家获诺奖，提醒我们重视科学大赛

超高清赋能精品创作，《2023-2024广播电视大屏收视数据报告》权威发布

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功

抖音小红书卖爆1万台！Office版人形机器人也来了，破解波士顿动力商业化难题

阿里通义万相AI生视频震撼上线！更懂中国风的大模型来了

央卫视2024秋晚亮点纷呈！艺术与科技“狠活儿”的多样态融合

虚幻引擎+XR+虚拟演播室技术，带你亲临台风现场

苹果史上第一台AI手机诞生，iPhone 16屠版热搜！中文版明年登场，3nm芯片封神

老黄预言成真！Roblox官宣AI秒生3D物体模型，引爆10亿玩家游戏新世界

当视听艺术遇上AI奇缘，一起来见证AIGC赋能下的视听创作新生态

MiniMax不藏了，大秀视频/语音/文本全模态模型家族，“每天与世界交互30亿次”

讯飞版「Her」横空出世全民开放！百变人设逼真丝滑，情绪价值逆天

OpenAI家庭机器人NEO登场，动作丝滑逼近人类！穿着西装的「人」却专做家务

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

Windows、Mac只是装了个夸克，整个电脑都AI了！

5年要烧掉1000亿！中国大模型第一城，诞生了！

法国国礼纪录片已上线，使用AVS3标准进行8K转码播放

中科院院士乔红：人形机器人十大趋势展望

6年“取经”长路，国产游戏大作《黑神话：悟空》幕后分享

惊艳又抽象！巴黎奥运会闭幕式的“高光”回顾

国产AI机器人好超前…弹琴泡茶打咏春，还能撸猫？？

全球首个AI流媒体音乐App来了！中国造的

谷歌版Her抢跑！一键召唤Gemini，全球52亿终端被颠覆

4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源！

OpenAI版终结者降临！地表最强机器人Figure 02问世，进宝马狂飙20小时

一个月蹦出4个国产Sora：“拍个手”集体阵亡 | 全方位评测

1194个镜头的原创AI数字资产，还原百年前中国第一次报名参加奥运会的真实历史

深圳争创“五个先锋” 加快打造人工智能先锋城市

清华系Sora全球上线！注册即用不排队，重点支持动漫风，官方：角色一致性下功夫了

AI涌入巴黎奥运，颠覆观赛的中国黑科技大起底

2024年广东超高清视频显示产业全景图谱

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉