首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

智谱开源：图生视频模型 & 视频标注模型

2024-09-19 02:00 广东

长话短说

就在刚刚，智谱开源了 CogVideoX 系列图生视频模型 CogVideoX-5B-I2V ，及其背后的标注模型 cogvlm2-llama3-caption

进一步的

在 CogVideoX-5B-I2V 中，允许输入「一张图像」+「提示词」，生成视频。至此，CogVideoX系列模型已经支持文生视频、视频延长、图生视频三种任务。地址在这：

https://huggingface.co/THUDM/CogVideoX-5b-I2V

而 cogvlm2-llama3-caption，则负责将视频数据，转换成文本描述，在这：

https://huggingface.co/THUDM/cogvlm2-llama3-caption

效果

输入是「狗狗」图片 +「开心狗狗」文字：

输出是开心狗狗：

输入是「天命人」图片：

输出是「广智救我」动态壁纸：

参数

包括之前的几个模型，参数信息如下：

更新记录

在过去的1个月里，CogVideo 做了一堆的更新，梳理如下：

🔥 更新: 2024/9/16

添加自动化生成视频工具，你可以使用本地开源模型 + FLUX + CogVideoX 实现自动生成优质视频。

https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/tools/llm_flux_cogvideox/llm_flux_cogvideox.py

🔥 更新: 2024/9/15

CogVideoX LoRA 微调权重导出并在 diffusers 库中测试通过。

https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/sat/README_zh.md

🔥 更新: 2024/8/29

使用 pipe.enable_sequential_cpu_offload() 和 pipe.vae.enable_slicing() 加入到 CogVideoX-5B 的推理代码中，可以将显存占用下降至 5GB。

🔥 更新: 2024/8/27

CogVideoX-2B 模型开源协议已经修改为 Apache 2.0 协议。

🔥 更新: 2024/8/27

智谱开源 CogVideoX 系列更大的模型 CogVideoX-5B。本次更新，大幅度优化了模型的推理性能，推理门槛大幅降低，您可以在 GTX 1080TI 等早期显卡运行 CogVideoX-2B，在 RTX 3060 等桌面端甜品卡运行 CogVideoX-5B 模型。

🌱 Source: 2022/5/19

智谱开源了 CogVideo 视频生成模型，这是首个开源的基于 Transformer 的大型文本生成视频模型，您可以访问 ICLR'23 论文查看技术细节。性能更强，参数量更大的模型正在到来的路上～，欢迎关注。

http://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247491671&idx=1&sn=d73f9d50cc3643fb500cef0c6dd5fdbb

拜AI古佛，修赛博禅心

最新文章

零代码：一键部署 3D 模型，守护最好的坤坤

腾讯开源：3D素材生成模型、最大 MoE 模型，兼容 OpenAI SDK 方式调用

我开发了一款排版器：20秒，完成公众号排版

OpenAI 在「问啥都行」上的一些回复

10月盘点：AI 行业大事记

我开发了一款新的 AI 搜索：批量搜

深度理解提示词：人人能学会，无需硬背

革命序章：Claude 3.5 新 API，可操作电脑

细说实现：大模型是如何被投毒的

“最强”小模型：Ministral 3B/8B 发布

175 份实战手册，来自 OpenAI

AI 模型战局渐定，下一波红利在哪？

特斯拉「We, Robot」发布会总结

拆解：智谱的「深度推理/多步搜索」

搞 AI 的，包揽诺贝尔物理、化学奖

独家信息：关于 o1 的 20 个真相

像用实习生一样用 AI 辅助你编程

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

扣子最佳实践：雅思口语专家

OpenAI 凌晨发布：Realtime 实时多模态 API，及其他

PIKA1.5正式上线，他们走上了另一条全新的"整活"之路。

AIPO：校园 AI 创投活动，开放报名！

9月：AI 圈的乌龙、趣事与新闻

智谱 API ：1折

OpenAI CTO 离职，Sora 前景不明

Llama-3.2 发布：多模态，禁欧洲

字节全新发布豆包AI视频模型 - 再见了Sora，你的时代过去了。

提示工程：反复崛起，反复被死亡

Claude Prompt：方法论

智谱开源：图生视频模型 & 视频标注模型

Qwen 2.5 开源，API 打一折

参加完 OpenAI 的活动，我看到了「草莓」的隐患

o1 能带我们走进 AGI 吗？

150 行代码，复刻「草莓」，青春版支持联网

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

原理解析：李继刚老师的「汉语新解」

iPhone 16 发布，全面解读「苹果2024发布会」

小红书式爆款文案正在剿杀语文。

拒绝谣言：OpenAI 没说新模型提价

插播：Qwen 404，但不必担心

最后一天：OpenAI 开发者日，将截止确认

近乎免费的 Gemini Flash，有了结构化输出

突发！Runway HF 已删库跑路

智谱 GLM-4-Plus 发布，独家附送免费 API，和我整的新活

OpenAI「草莓」今秋发布，随后是「猎户座」

史诗更新！1080 可跑的 Sora，可商用！超大杯 CogVideoX 5B 开源！GLM-Flash 免费！

大厂山寨 Cursor，不如做好邮箱

征集｜ComfyUI 全球社区峰会 AI 展：新艺术宣言

你需要的不是智能体，而是工作流

谷歌前 CEO：「盗用内容也不是不行」

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉