今日开源(2024-10-23):Stable Diffusion 3.5 全家桶,8B参数,10s生成100万像素以上图片

文摘   2024-10-23 18:27   北京  


🏆基座模型

①项目:Stable Diffusion 3.5

Stable Diffusion 3.5 是一个用于图像生成的深度学习模型,包含三个版本(Large、Large Turbo和Medium)。该项目提供了一个轻量级的推理实现,支持多种文本编码器和变分自编码器(VAE)解码器。用户可以通过简单的命令生成高质量的图像,适用于多种应用场景,如AI艺术创作和计算机视觉研究。

☆一键收藏:

https://sota.jiqizhixin.com/project/stable-diffusion-3-5


🛠️框架平台、必备工具

①项目:O1-nano

O1-nano是一个开源项目,旨在实现OpenAI O1模型系列的简化版本。该项目主要用于展示模型在算术问题求解中的能力。O1-nano结合了思维链推理和强化学习,能够在训练和推理过程中生成完成和内部推理的标记。该项目的目标是通过分解复杂问题为子任务来提高问题解决能力。

☆一键收藏:

https://sota.jiqizhixin.com/project/o1-nano


②项目:Moonshine

Moonshine是一组优化用于资源受限设备的快速且准确的语音转文本模型。它非常适合实时的设备端应用,如实时转录和语音命令识别。Moonshine在HuggingFace维护的OpenASR排行榜上使用的数据集上,获得了比OpenAI的Whisper模型更好的词错误率(WER)。

☆一键收藏:

https://sota.jiqizhixin.com/project/moonshine


③项目:Whispo

Whispo是一个由AI驱动的语音转录工具。用户可以通过按住Ctrl键录制语音,释放后自动将转录文本插入到当前使用的应用程序中。该工具支持任何支持文本输入的应用程序,并且数据存储在本地。Whispo使用OpenAI Whisper进行转录,并支持通过自定义API URL使用用户自己的API进行转录。此外,还支持使用大型语言模型(如OpenAI、Groq和Gemini)进行转录后处理。

☆一键收藏:

https://sota.jiqizhixin.com/project/whispo


④项目:Fast-LLM

Fast-LLM 是一个用于训练大型语言模型的开源库,基于 PyTorch 和 Triton 构建。它具有极高的速度,能够扩展到大型集群,支持多种模型架构,并且易于使用。与商业框架如 Megatron-LM 不同,Fast-LLM 完全开源,鼓励社区驱动的开发,研究人员可以根据需要自由定制和优化。

☆一键收藏:

https://sota.jiqizhixin.com/project/fast-llm


⑤项目:GraphLLM

GraphLLM是一个基于图的框架,用于通过一个或多个大语言模型(LLM)处理数据。它提供了一个强大的agent,能够执行网页搜索和运行Python代码,并包含一组工具来抓取网页并将数据重新格式化为LLM友好的格式。GraphLLM的设计目标是提供对原始提示和模型输出的完全控制,且不隐藏库的内部工作。项目还在开发一个类似ComfyUI的GUI,以支持复杂图形的高级功能。

☆一键收藏:

https://sota.jiqizhixin.com/project/graphllm



机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章