今日开源(2024-09-26):Molmo全开源视觉语言模型,小体积高性能,超越GPT-4,打败Meta新发Llama 3.2

文摘   2024-09-26 18:02   北京  


🏆 基座模型

①项目:Molmo

Molmo 是由 Allen Institute for AI 开发的一系列开放式视觉语言模型。Molmo基于Qwen2-72B,使用OpenAI的CLIP作为视觉骨干,增强了模型处理图像和文本的能力。模型在 PixMo 上进行训练,PixMo 是一个包含 100 万个高度精选的图像-文本对的数据集。Molmo 模型在性能上优于体积大十倍的其他模型,旨在提高开源系统在性能上与专有系统(如商业模型)之间的竞争力,特别是在学术标准和人类评估方面的表现。

☆一键收藏:

https://sota.jiqizhixin.com/project/molmo


②项目:Llama 3.2

Meta 推出了 Llama 3.2,这是一个前沿的多模态大语言模型系列。该系列包括轻量级文本模型(1B 和 3B)以及视觉模型(11B 和 90B),专为在边缘和移动设备上的高效应用而设计。这些模型经过预训练和指令调优,特别适合于实时处理和个性化需求,能够在多种任务中展现出卓越的表现,包括文本生成、图像理解和数据摘要。

☆一键收藏:

https://sota.jiqizhixin.com/project/llama-3-2


③项目:Westlake-Omni

Westlake-Omni 是一个开源的中文情感语音交互大语言模型,利用离散表示实现语音和文本模态的统一处理。该模型支持低延迟生成和高质量的中文情感语音交互。能够同时生成文本和语音响应,作为开源项目易于使用和扩展。

☆一键收藏:

https://sota.jiqizhixin.com/project/westlake-omni


🤖 Agent开发

①项目:awesome-autonomous-web

awesome-autonomous-web 是一个精心策划的工具列表,旨在增强AI智能体与Web高效交互的能力。该项目涵盖了从浏览、认证、Web爬虫到自动化任务等多个方面的工具,帮助AI智能体在Web环境中实现自主操作。

☆一键收藏:

https://sota.jiqizhixin.com/project/awesome-autonomous-web


🛠️必备工具

①项目:QA-MDT(OpenMusic)

QA-MDT 是一个开源的文本生成音乐(Text-to-Music, TTM)项目,集成了最先进的音乐生成模型。该项目基于多个开源库和模型,如 AudioLDM、PixArt-alpha、MDT、AudioMAE 和 Open-Sora,提供了一个完整的实现方案。用户可以通过简单的设置和安装步骤,快速运行本地的 Gradio 演示,体验音乐生成的效果。

☆一键收藏:

https://sota.jiqizhixin.com/project/qa-mdt


②项目:DocETL

DocETL 是一个用于创建和执行数据处理管道的工具,特别适用于复杂的文档处理任务。它提供了一个低代码、声明式的 YAML 接口,用于定义基于大型语言模型(LLM)的复杂数据操作。DocETL 旨在最大化复杂任务的正确性和输出质量,适用于处理无法放入单个提示或过长以至于无法有效进行 LLM 推理的长文档。

☆一键收藏:

https://sota.jiqizhixin.com/project/docetl

👋网页端访问:https://sota.jiqizhixin.com

欢迎扫码加入社群
交流LLM推理与微调、Agent/RAG应用构建开发经验


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章