🏆 基座模型
①项目:Molmo
★Molmo 是由 Allen Institute for AI 开发的一系列开放式视觉语言模型。Molmo基于Qwen2-72B,使用OpenAI的CLIP作为视觉骨干,增强了模型处理图像和文本的能力。模型在 PixMo 上进行训练,PixMo 是一个包含 100 万个高度精选的图像-文本对的数据集。Molmo 模型在性能上优于体积大十倍的其他模型,旨在提高开源系统在性能上与专有系统(如商业模型)之间的竞争力,特别是在学术标准和人类评估方面的表现。
☆一键收藏:
https://sota.jiqizhixin.com/project/molmo
②项目:Llama 3.2
★Meta 推出了 Llama 3.2,这是一个前沿的多模态大语言模型系列。该系列包括轻量级文本模型(1B 和 3B)以及视觉模型(11B 和 90B),专为在边缘和移动设备上的高效应用而设计。这些模型经过预训练和指令调优,特别适合于实时处理和个性化需求,能够在多种任务中展现出卓越的表现,包括文本生成、图像理解和数据摘要。
☆一键收藏:
https://sota.jiqizhixin.com/project/llama-3-2
③项目:Westlake-Omni
★Westlake-Omni 是一个开源的中文情感语音交互大语言模型,利用离散表示实现语音和文本模态的统一处理。该模型支持低延迟生成和高质量的中文情感语音交互。能够同时生成文本和语音响应,作为开源项目易于使用和扩展。
☆一键收藏:
https://sota.jiqizhixin.com/project/westlake-omni
🤖 Agent开发
①项目:awesome-autonomous-web
★awesome-autonomous-web 是一个精心策划的工具列表,旨在增强AI智能体与Web高效交互的能力。该项目涵盖了从浏览、认证、Web爬虫到自动化任务等多个方面的工具,帮助AI智能体在Web环境中实现自主操作。
☆一键收藏:
https://sota.jiqizhixin.com/project/awesome-autonomous-web
🛠️必备工具
①项目:QA-MDT(OpenMusic)
★QA-MDT 是一个开源的文本生成音乐(Text-to-Music, TTM)项目,集成了最先进的音乐生成模型。该项目基于多个开源库和模型,如 AudioLDM、PixArt-alpha、MDT、AudioMAE 和 Open-Sora,提供了一个完整的实现方案。用户可以通过简单的设置和安装步骤,快速运行本地的 Gradio 演示,体验音乐生成的效果。
☆一键收藏:
https://sota.jiqizhixin.com/project/qa-mdt
②项目:DocETL
★DocETL 是一个用于创建和执行数据处理管道的工具,特别适用于复杂的文档处理任务。它提供了一个低代码、声明式的 YAML 接口,用于定义基于大型语言模型(LLM)的复杂数据操作。DocETL 旨在最大化复杂任务的正确性和输出质量,适用于处理无法放入单个提示或过长以至于无法有效进行 LLM 推理的长文档。
☆一键收藏:
https://sota.jiqizhixin.com/project/docetl
👋网页端访问:https://sota.jiqizhixin.com