今日开源(2024-10-24):最大开源视频生成模型Mochi 1,10B参数,每秒30帧生成最长5.4秒视频,精准多模态融合

文摘   2024-10-24 18:00   北京  


🏆基座模型

①项目:Mochi 1

Mochi 1 是一款开源的先进视频生成模型,具备高保真运动和强提示词依从性。该模型在开放视频生成系统中取得了显著进展,并在Apache 2.0许可下发布。采用了新颖的非对称扩散transformer(AsymmDiT)架构,是迄今为止最大的视频生成模型,支持用户在Gradio UI或命令行界面生成视频。

☆一键收藏:

https://sota.jiqizhixin.com/project/mochi-1


②项目:Video-XL

Video-XL是一个专为小时级视频理解而设计的视觉语言模型。该项目在多个基准测试中表现出色,能够处理长视频的视觉上下文,适用于电影摘要、监控异常检测和广告识别等实际场景。

☆一键收藏:

https://sota.jiqizhixin.com/project/video-xl


🤖 Agent开发

①项目:agent.exe

agent.exe 是一个简单的 Electron 应用程序,允许 Claude 3.5 Sonnet 直接控制本地计算机。用户可以通过提供的 API Key 让 AI 执行计算机上的任务。该项目支持 MacOS,并理论上支持 Windows 和 Linux。项目旨在展示 Claude 的计算机使用能力。

☆一键收藏:

https://sota.jiqizhixin.com/project/agent-exe


②项目:Agent2sim

Agent-to-Sim项目旨在从日常视频中学习交互行为。通过使用4D重建技术,该项目能够从视频中提取和模拟复杂的交互行为。项目提供了一套工具和方法,帮助研究人员和开发者在不需要大量标注数据的情况下,进行行为建模和模拟。

☆一键收藏:

https://sota.jiqizhixin.com/project/agent2sim


③项目:RagVL

RagVL是一个多模态检索增强生成的项目,通过知识增强的重排序和噪声注入训练来提升多模态生成的效果。该项目提供了官方的PyTorch实现,旨在通过改进的重排序方法提高生成任务的性能。

☆一键收藏:

https://sota.jiqizhixin.com/project/ragvl

🛠️必备工具

①项目:self-llm

《开源大模型食用指南》是一个专为国内初学者设计的教程项目,旨在基于Linux平台提供开源大模型的全流程指导。项目涵盖环境配置、本地部署、高效微调等技能,帮助普通学生和研究者更好地使用开源大模型。通过简化部署和应用流程,项目希望让更多人能够轻松融入大模型的使用中。

☆一键收藏:

https://sota.jiqizhixin.com/project/self-llm



机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章