今日开源(2024-10-30):SD 3.5 Medium开源发布,2.5B参数大小,生成从0.25到2百万像素之间的图像

文摘   2024-10-30 18:28   北京  


🏆基座模型

①项目:SD3.5 Medium

★Stable Diffusion 3.5 Medium 是一个多模态扩散Transformer模型,专注于文本生成图像。该模型在图像质量、排版、复杂提示理解和资源效率方面有显著提升。该模型拥有 25 亿个参数,并采用改进的 MMDiT-X 架构和训练方法,能够生成分辨率在 0.25 到 2 兆像素之间的图像。

☆一键收藏:

https://sota.jiqizhixin.com/project/stable-diffusion-3-5


🤖 Agent开发

①项目:Eliza

Eliza是一个多智能体模拟框架,支持在Twitter和Discord平台上进行会话agent。该项目允许用户添加多个独特角色,并提供完整的Discord和Twitter连接器,包括Discord语音频道支持。Eliza具备会话和文档的RAG记忆功能,能够读取链接和PDF,转录音频和视频,并总结对话。项目高度可扩展,用户可以创建自己的动作和客户端来扩展Eliza的功能。默认配置支持Nous Hermes Llama 3.1B模型,并支持OpenAI进行云推理。

☆一键收藏:

https://sota.jiqizhixin.com/project/eliza


②项目:Dynamiq

Dynamiq是一个面向智能体和大型语言模型(LLM)应用的编排框架,旨在简化AI驱动应用的开发。它专注于检索增强生成(RAG)和LLM智能体的编排,提供了一体化的生成式AI解决方案。

☆一键收藏:

https://sota.jiqizhixin.com/project/dynamiq


🛠️框架平台、必备工具

①项目:VLMEvalKit

VLMEvalKit 是一个开源的评估工具包,专为大规模视觉语言模型(LVLMs)设计。它支持对约100个视觉语言模型进行评估,并涵盖40多个基准测试。该工具包通过生成式评估方法,简化了在多个存储库中进行数据准备的繁重工作,提供了基于精确匹配和LLM的答案提取的评估结果。

☆一键收藏:

https://sota.jiqizhixin.com/project/vlmevalkit


②项目:MMIE

MMIE是一个为大型视觉语言模型(LVLMs)设计的大规模多模态交错理解评估基准。该项目提供了一个稳健的框架,用于评估LVLMs在不同领域的交错理解和生成能力,并支持可靠的自动化指标。

☆一键收藏:

https://sota.jiqizhixin.com/project/mmie


③项目:HyperCloning

HyperCloning 是一个软件项目,旨在通过小模型初始化加速大语言模型的预训练。该项目可以将小型预训练语言模型的知识传递给大型语言模型,并通过微调提高大型模型的准确性。

☆一键收藏:

https://sota.jiqizhixin.com/project/hypercloning


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章