智谱开源:图生视频模型 & 视频标注模型

2024-09-19 02:00   广东  

长话短说

就在刚刚,智谱开源了 CogVideoX 系列图生视频模型 CogVideoX-5B-I2V ,及其背后的标注模型 cogvlm2-llama3-caption



进一步的

CogVideoX-5B-I2V 中,允许输入「一张图像」+「提示词」,生成视频。至此,CogVideoX系列模型已经支持文生视频、视频延长、图生视频三种任务。地址在这

https://huggingface.co/THUDM/CogVideoX-5b-I2V



而 cogvlm2-llama3-caption,则负责将视频数据,转换成文本描述,在这:

https://huggingface.co/THUDM/cogvlm2-llama3-caption


效果

输入是「狗狗」图片 +「开心狗狗」文字:


输出是开心狗狗:


输入是「天命人」图片:


输出是「广智救我」动态壁纸:


参数

包括之前的几个模型,参数信息如下:


更新记录

在过去的1个月里,CogVideo 做了一堆的更新,梳理如下:

🔥 更新: 2024/9/16

添加自动化生成视频工具,你可以使用本地开源模型 + FLUX + CogVideoX 实现自动生成优质视频。


https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/tools/llm_flux_cogvideox/llm_flux_cogvideox.py

🔥 更新: 2024/9/15

CogVideoX LoRA 微调权重导出并在 diffusers 库中测试通过。


https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/sat/README_zh.md

🔥 更新: 2024/8/29

使用 pipe.enable_sequential_cpu_offload()pipe.vae.enable_slicing() 加入到 CogVideoX-5B 的推理代码中,可以将显存占用下降至 5GB。

🔥 更新: 2024/8/27

CogVideoX-2B 模型开源协议已经修改为 Apache 2.0 协议。

🔥 更新: 2024/8/27

智谱开源 CogVideoX 系列更大的模型 CogVideoX-5B。本次更新,大幅度优化了模型的推理性能,推理门槛大幅降低,您可以在 GTX 1080TI 等早期显卡运行 CogVideoX-2B,在 RTX 3060 等桌面端甜品卡运行 CogVideoX-5B 模型。

🌱 Source: 2022/5/19

智谱开源了 CogVideo 视频生成模型,这是首个开源的基于 Transformer 的大型文本生成视频模型,您可以访问 ICLR'23 论文 查看技术细节。性能更强,参数量更大的模型正在到来的路上~,欢迎关注。

赛博禅心
拜AI古佛,修赛博禅心
 最新文章