今日开源(2024-09-25):简化版视觉语言模型Mini-LLaVA,支持图像、视频和文本的多模态处理,单个GPU即可运行

文摘   2024-09-25 18:18   北京  


🏆 基座模型

①项目:Mini-LLaVA

Mini-LLaVA 是一个简化版的 LLaVA 风格视觉语言模型实现,能够处理图像、视频和文本输入。该项目基于 Llama 3.1,只需一个GPU即可运行。它通过最小化代码结构,实现了多模态输入的交错处理,适用于复杂的视觉-文本关联任务。

☆一键收藏:

https://sota.jiqizhixin.com/project/mini-llava


②项目:谷歌Gemma-2-2B-ArliAI-RPMax-v1.1

Gemma-2-2B-ArliAI-RPMax-v1.1 是基于 gemma-22b-it 的变体,属于 RPMax 系列模型。该系列模型通过多样化和去重的数据集进行训练,专注于创意写作和角色扮演,确保模型在理解和处理不同角色和情境时具有高度的创意和非重复性。用户早期测试表明,该系列模型风格独特,与其他 RP 模型不同。

☆一键收藏:

https://sota.jiqizhixin.com/project/gemma-2


🛠️必备工具

①项目:GraphReasoning

GraphReasoning项目通过生成式人工智能,将包含1000篇科学论文的数据集转化为本体知识图谱。通过深入的结构分析,计算节点度数、识别社区和连通性、评估聚类系数和关键节点的中介中心性,揭示了令人着迷的知识架构。该图谱具有固有的无标度性质,高度连通,可用于图推理,揭示前所未见的跨学科关系,用于回答查询、识别知识空白、提出前所未有的材料设计和预测材料行为。

☆一键收藏:

https://sota.jiqizhixin.com/project/graphreasoning


②项目:cog-flux

Cog inference for flux models 是一个用于 FLUX 模型的推理工具。该项目由 Black Forest Labs 开发,支持 FLUX.1 schnell 和 FLUX.1 dev 两个版本。项目提供了多种功能,包括使用 torch.compile 进行编译、基于 CuDNN 的快速注意力机制、NSFW 检查以及 img2img 支持。用户可以通过 Replicate 平台的 API 或浏览器直接运行这些模型,也可以在本地硬件上进行自定义运行。

☆一键收藏:

https://sota.jiqizhixin.com/project/cog-flux


③项目:Flow-Judge-v0.1

Flow-Judge-v0.1 是一个开源的、轻量级的语言模型评估工具,专为LLM系统评估而优化。该工具以合成数据集为基础,支持多种模型类型(如Hugging Face Transformers和vLLM),并提供了可扩展的架构以便用户创建自定义指标和评分标准。其设计目标是提高评估的准确性、速度和定制化能力。

☆一键收藏:

https://sota.jiqizhixin.com/project/flow-judge


④项目:nanoGPT-mup

nanoGPT-mup 是一个用于训练和微调中型 GPT 模型的最简单、最快速的仓库。该项目是 nanoGPT 的一个分支,提供了最大更新参数化(muP)的最小实现,并作为“最大更新参数化实践指南”的补充材料。项目代码简洁易读,适合从头训练新模型或微调预训练检查点。

☆一键收藏:

https://sota.jiqizhixin.com/project/nanogpt-mup


👋网页端访问:https://sota.jiqizhixin.com

欢迎扫码加入社群
交流LLM推理与微调、Agent/RAG应用构建开发经验


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章