今日开源(2024-09-12):Mistral AI发布Pixtral 12B,多模态大语言模型,支持任意尺寸、数量的图像处理

文摘   2024-09-12 17:59   云南  


🏆 基座模型

①项目:Pixtral

Pixtral 12B 是由 Mistral AI 发布的多模态模型,支持图像和文本的联合处理拥有 120 亿参数,大小约为 24GB。模型基于文本模型 Nemo 12B 构建,能够支持任意大小的图像和 128k 的上下文窗口用户可以通过传递图像和 URL 与文本一起进行消息处理,该模型的检查点由社区上传,提供了图像支持功能,适用于多种机器学习和深度学习任务。词汇库有 131,072 个不同的 token,能实现非常细腻的语言理解和生成

☆一键收藏:

https://sota.jiqizhixin.com/project/pixtral


②项目:LLaMA-Omni

LLaMA-Omni 是一个基于 Llama-3.1-8B-Instruct 构建的低延迟高质量端到端语音交互模型,旨在实现 GPT-4o 级别的语音能力。该模型支持低延迟的语音交互,能够同时生成文本和语音响应,适用于多种语音指令场景。

☆一键收藏:

https://sota.jiqizhixin.com/project/llama-omni


③项目:Solar Pro (preview) Instruct - 22B

Solar Pro Preview 是一个先进的大型语言模型(LLM),具有220亿参数,专为在单个GPU上运行而设计。该项目的亮点在于其卓越的性能,超越了许多参数少于300亿的模型,并与超过三倍参数量的模型(如70亿参数的Llama 3.1)相媲美。Solar Pro Preview采用了改进的深度上采样方法,将14亿参数的Phi-3中型模型扩展至220亿参数,旨在优化在80GB VRAM的GPU上的运行效率。

☆一键收藏:

https://sota.jiqizhixin.com/project/solar-pro-preview-instruct-22b


🤖 Agent开发

①项目名称:SciAgents

SciAgents 是一个旨在通过多智能体智能图推理来实现科学发现的自动化项目。该项目利用大规模的本体知识图谱来组织和连接各种科学概念,同时结合大语言模型、数据检索工具以及具备现场学习能力的多智能体系统。特别是在生物启发材料领域,SciAgents 揭示了以往被视为不相关的跨学科关系,超越了传统人类驱动研究方法的规模、精度和探索能力。该框架能够自主生成和改进研究假设,阐明潜在机制、设计原理以及意外的材料特性。

☆一键收藏:

https://sota.jiqizhixin.com/project/sciagents


🛠️必备工具

①项目:finetune-Qwen2-VL

finetune-Qwen2-VL 是一个用于微调 Qwen2-VL 多模态大模型的项目。Qwen2-VL 是由通义千问团队发布的多模态大模型,具有2B、7B和72B三个版本。该项目提供了简洁的微调代码,支持单GPU和多GPU训练,旨在帮助用户快速上手微调Qwen2-VL模型。

☆一键收藏:

https://sota.jiqizhixin.com/project/finetune-qwen2-vl


②项目:Reader-LM

Jina AI 最近发布了 Reader-LM,这是一组新的小型语言模型,旨在将原始 HTML 转换为干净的 Markdown。这些模型包括 reader-lm-0.5b 和 reader-lm-1.5b,支持多种语言,并且能够处理最长达 256K 的上下文。

☆一键收藏:

https://sota.jiqizhixin.com/project/reader-lm

👋网页端访问:https://sota.jiqizhixin.com

欢迎扫码加入社群
交流LLM推理与微调、Agent/RAG应用构建开发经验


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章