今日开源(2024-10-21):DeepSeek发布Janus1.3B,统一多模态理解和生成,新颖自回归框架,解耦设计提升性能

文摘   2024-10-21 18:16   北京  


🏆基座模型

①项目:Janus

Janus 是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立路径,同时利用单一的统一Transformer架构进行处理,解决了以往方法的局限性。Janus不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。其简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

☆一键收藏:

https://sota.jiqizhixin.com/project/janus


②项目:Spirit-LM

Spirit-LM 是一个混合语音和书面语言模型,旨在处理和生成语音与文本的混合输入。该项目提供了模型权重、推理代码和评估脚本,支持语音标记化和语音文本情感保留基准测试。

☆一键收藏:

https://sota.jiqizhixin.com/project/spirit-lm


🛠️框架平台、必备工具

①项目:Qwen 2.5 Code Interpreter

Qwen 2.5 Coder 1.5B with Code Interpreter 是一个结合了 Qwen、WebLLM 和 Pyodide 的代码解释器项目。该项目旨在为开发者提供一个强大的工具,帮助他们更高效地编写和调试代码。项目使用了 Next.js 框架,并支持在 Vercel 平台上进行快速部署。

☆一键收藏:

https://sota.jiqizhixin.com/project/qwen-2-5-code-interpreter


②项目:BitNet

BitNet是一个官方的1-bit大语言模型(LLM)推理框架,专注于在CPU上实现快速且无损的推理。该框架通过优化的内核支持1.58-bit模型的高效推理,显著提升了ARM和x86 CPU上的速度和能效。BitNet的设计目标是使大规模LLM能够在本地设备上运行,提供与人类阅读速度相当的性能。

☆一键收藏:

https://sota.jiqizhixin.com/project/bitnet


③项目:Lingua

Meta Lingua 是一个轻量级且高效的LLM(大型语言模型)训练和推理库,专为研究而设计。它使用易于修改的PyTorch组件,允许用户尝试新的架构、损失函数和数据。该项目旨在实现端到端的训练、推理和评估,并提供工具以更好地理解速度和稳定性。

☆一键收藏:

https://sota.jiqizhixin.com/project/lingua


🤖 Agent开发

①项目:VideoAgent

VideoAgent是一个用于自我改进视频生成的项目,旨在通过训练视频策略来提升视频生成的质量和效率。该项目提供了完整的代码库,支持在Meta-World和iTHOR等环境中进行实验。用户可以通过提供的脚本进行模型训练和推理,并使用预训练模型进行快速实验。

☆一键收藏:

https://sota.jiqizhixin.com/project/videoagent



机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章