🏆基座模型
①项目:Janus
★Janus 是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立路径,同时利用单一的统一Transformer架构进行处理,解决了以往方法的局限性。Janus不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。其简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
☆一键收藏:
https://sota.jiqizhixin.com/project/janus
②项目:Spirit-LM
★Spirit-LM 是一个混合语音和书面语言模型,旨在处理和生成语音与文本的混合输入。该项目提供了模型权重、推理代码和评估脚本,支持语音标记化和语音文本情感保留基准测试。
☆一键收藏:
https://sota.jiqizhixin.com/project/spirit-lm
🛠️框架平台、必备工具
①项目:Qwen 2.5 Code Interpreter
★Qwen 2.5 Coder 1.5B with Code Interpreter 是一个结合了 Qwen、WebLLM 和 Pyodide 的代码解释器项目。该项目旨在为开发者提供一个强大的工具,帮助他们更高效地编写和调试代码。项目使用了 Next.js 框架,并支持在 Vercel 平台上进行快速部署。
☆一键收藏:
https://sota.jiqizhixin.com/project/qwen-2-5-code-interpreter
②项目:BitNet
★BitNet是一个官方的1-bit大语言模型(LLM)推理框架,专注于在CPU上实现快速且无损的推理。该框架通过优化的内核支持1.58-bit模型的高效推理,显著提升了ARM和x86 CPU上的速度和能效。BitNet的设计目标是使大规模LLM能够在本地设备上运行,提供与人类阅读速度相当的性能。
☆一键收藏:
https://sota.jiqizhixin.com/project/bitnet
③项目:Lingua
★Meta Lingua 是一个轻量级且高效的LLM(大型语言模型)训练和推理库,专为研究而设计。它使用易于修改的PyTorch组件,允许用户尝试新的架构、损失函数和数据。该项目旨在实现端到端的训练、推理和评估,并提供工具以更好地理解速度和稳定性。
☆一键收藏:
https://sota.jiqizhixin.com/project/lingua
🤖 Agent开发
①项目:VideoAgent
★VideoAgent是一个用于自我改进视频生成的项目,旨在通过训练视频策略来提升视频生成的质量和效率。该项目提供了完整的代码库,支持在Meta-World和iTHOR等环境中进行实验。用户可以通过提供的脚本进行模型训练和推理,并使用预训练模型进行快速实验。
☆一键收藏: