长话短说
就在刚刚,智谱开源了 CogVideoX 系列图生视频模型 CogVideoX-5B-I2V ,及其背后的标注模型 cogvlm2-llama3-caption
进一步的
在 CogVideoX-5B-I2V 中,允许输入「一张图像」+「提示词」,生成视频。至此,CogVideoX系列模型已经支持文生视频、视频延长、图生视频三种任务。地址在这:
https://huggingface.co/THUDM/CogVideoX-5b-I2V
而 cogvlm2-llama3-caption,则负责将视频数据,转换成文本描述,在这:
https://huggingface.co/THUDM/cogvlm2-llama3-caption
效果
输入是「狗狗」图片 +「开心狗狗」文字:
输出是开心狗狗:
输入是「天命人」图片:
输出是「广智救我」动态壁纸:
参数
包括之前的几个模型,参数信息如下:
更新记录
在过去的1个月里,CogVideo 做了一堆的更新,梳理如下:
🔥 更新: 2024/9/16
添加自动化生成视频工具,你可以使用本地开源模型 + FLUX + CogVideoX 实现自动生成优质视频。
https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/tools/llm_flux_cogvideox/llm_flux_cogvideox.py
🔥 更新: 2024/9/15
CogVideoX LoRA 微调权重导出并在 diffusers 库中测试通过。
https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/sat/README_zh.md
🔥 更新: 2024/8/29
使用 pipe.enable_sequential_cpu_offload()
和 pipe.vae.enable_slicing()
加入到 CogVideoX-5B 的推理代码中,可以将显存占用下降至 5GB。
🔥 更新: 2024/8/27
CogVideoX-2B 模型开源协议已经修改为 Apache 2.0 协议。
🔥 更新: 2024/8/27
智谱开源 CogVideoX 系列更大的模型 CogVideoX-5B。本次更新,大幅度优化了模型的推理性能,推理门槛大幅降低,您可以在 GTX 1080TI 等早期显卡运行 CogVideoX-2B,在 RTX 3060 等桌面端甜品卡运行 CogVideoX-5B 模型。
🌱 Source: 2022/5/19
智谱开源了 CogVideo 视频生成模型,这是首个开源的基于 Transformer 的大型文本生成视频模型,您可以访问 ICLR'23 论文 查看技术细节。性能更强,参数量更大的模型正在到来的路上~,欢迎关注。