🏆基座模型
①项目:Stable Diffusion 3.5
★Stable Diffusion 3.5 是一个用于图像生成的深度学习模型,包含三个版本(Large、Large Turbo和Medium)。该项目提供了一个轻量级的推理实现,支持多种文本编码器和变分自编码器(VAE)解码器。用户可以通过简单的命令生成高质量的图像,适用于多种应用场景,如AI艺术创作和计算机视觉研究。
☆一键收藏:
https://sota.jiqizhixin.com/project/stable-diffusion-3-5
🛠️框架平台、必备工具
①项目:O1-nano
★O1-nano是一个开源项目,旨在实现OpenAI O1模型系列的简化版本。该项目主要用于展示模型在算术问题求解中的能力。O1-nano结合了思维链推理和强化学习,能够在训练和推理过程中生成完成和内部推理的标记。该项目的目标是通过分解复杂问题为子任务来提高问题解决能力。
☆一键收藏:
https://sota.jiqizhixin.com/project/o1-nano
②项目:Moonshine
★Moonshine是一组优化用于资源受限设备的快速且准确的语音转文本模型。它非常适合实时的设备端应用,如实时转录和语音命令识别。Moonshine在HuggingFace维护的OpenASR排行榜上使用的数据集上,获得了比OpenAI的Whisper模型更好的词错误率(WER)。
☆一键收藏:
https://sota.jiqizhixin.com/project/moonshine
③项目:Whispo
★Whispo是一个由AI驱动的语音转录工具。用户可以通过按住Ctrl键录制语音,释放后自动将转录文本插入到当前使用的应用程序中。该工具支持任何支持文本输入的应用程序,并且数据存储在本地。Whispo使用OpenAI Whisper进行转录,并支持通过自定义API URL使用用户自己的API进行转录。此外,还支持使用大型语言模型(如OpenAI、Groq和Gemini)进行转录后处理。
☆一键收藏:
https://sota.jiqizhixin.com/project/whispo
④项目:Fast-LLM
★Fast-LLM 是一个用于训练大型语言模型的开源库,基于 PyTorch 和 Triton 构建。它具有极高的速度,能够扩展到大型集群,支持多种模型架构,并且易于使用。与商业框架如 Megatron-LM 不同,Fast-LLM 完全开源,鼓励社区驱动的开发,研究人员可以根据需要自由定制和优化。
☆一键收藏:
https://sota.jiqizhixin.com/project/fast-llm
⑤项目:GraphLLM
★GraphLLM是一个基于图的框架,用于通过一个或多个大语言模型(LLM)处理数据。它提供了一个强大的agent,能够执行网页搜索和运行Python代码,并包含一组工具来抓取网页并将数据重新格式化为LLM友好的格式。GraphLLM的设计目标是提供对原始提示和模型输出的完全控制,且不隐藏库的内部工作。项目还在开发一个类似ComfyUI的GUI,以支持复杂图形的高级功能。
☆一键收藏: