🏆基座模型
①项目:Mochi 1
★Mochi 1 是一款开源的先进视频生成模型,具备高保真运动和强提示词依从性。该模型在开放视频生成系统中取得了显著进展,并在Apache 2.0许可下发布。采用了新颖的非对称扩散transformer(AsymmDiT)架构,是迄今为止最大的视频生成模型,支持用户在Gradio UI或命令行界面生成视频。
☆一键收藏:
https://sota.jiqizhixin.com/project/mochi-1
②项目:Video-XL
★Video-XL是一个专为小时级视频理解而设计的视觉语言模型。该项目在多个基准测试中表现出色,能够处理长视频的视觉上下文,适用于电影摘要、监控异常检测和广告识别等实际场景。
☆一键收藏:
https://sota.jiqizhixin.com/project/video-xl
🤖 Agent开发
①项目:agent.exe
★agent.exe 是一个简单的 Electron 应用程序,允许 Claude 3.5 Sonnet 直接控制本地计算机。用户可以通过提供的 API Key 让 AI 执行计算机上的任务。该项目支持 MacOS,并理论上支持 Windows 和 Linux。项目旨在展示 Claude 的计算机使用能力。
☆一键收藏:
https://sota.jiqizhixin.com/project/agent-exe
②项目:Agent2sim
★Agent-to-Sim项目旨在从日常视频中学习交互行为。通过使用4D重建技术,该项目能够从视频中提取和模拟复杂的交互行为。项目提供了一套工具和方法,帮助研究人员和开发者在不需要大量标注数据的情况下,进行行为建模和模拟。
☆一键收藏:
https://sota.jiqizhixin.com/project/agent2sim
③项目:RagVL
★RagVL是一个多模态检索增强生成的项目,通过知识增强的重排序和噪声注入训练来提升多模态生成的效果。该项目提供了官方的PyTorch实现,旨在通过改进的重排序方法提高生成任务的性能。
☆一键收藏:
🛠️必备工具
①项目:self-llm
★《开源大模型食用指南》是一个专为国内初学者设计的教程项目,旨在基于Linux平台提供开源大模型的全流程指导。项目涵盖环境配置、本地部署、高效微调等技能,帮助普通学生和研究者更好地使用开源大模型。通过简化部署和应用流程,项目希望让更多人能够轻松融入大模型的使用中。
☆一键收藏: