最新开源:书生·万象多模态大模型InternVL 2.5开源!多模态大模型Maya,指令微调扩展至支持8种语言!

文摘   2024-12-16 16:09   广东  
01
书生·万象 InternVL 2.5 开源,性能媲美GPT-4o

官网:https://internvl.github.io/blog/2024-12-05-InternVL-2.5/

近日,上海AI实验室推出开源多模态大语言模型 InternVL 2.5,支持从 1B 到 78B 的多种规模,适应不同的使用场景和硬件需求。

InternVL 2.5 基于 InternVL 2.0 构建,保留了相同的模型架构,即 ViT-MLP-LLM 架构,采用动态高分辨率训练和渐进式扩展策略,提升模型性能。

书生·万象 InternVL 2.5 的主要功能:

  • 多模态理解:处理和理解来自不同模态(文本、图像、视频)的信息。

  • 多学科推理:在多个学科领域内进行复杂推理和问题解决。

  • 现实世界理解:对现实世界场景和事件进行理解和分析。

  • 多模态幻觉检测:识别和区分真实和虚构的视觉信息。

  • 视觉地面化:将文本描述与图像中的实际对象相匹配。

  • 多语言处理:支持多种语言的理解和生成能力。

  • 纯语言处理:执行文本分析、生成和理解等语言任务。

InternVL2.5-78B 是首个在多模态理解基准(MMMU)上得分超过 70 的开源模型,超越了 ChatGPT-4o 和 Claude-3.5-Sonnet 等商业模型

02
Maya:一个经过指令微调的多语言多模态模型

论文地址:https://arxiv.org/abs/2412.07112

Maya 是一个 8B 参数的经过指令微调的开源多语言多模态模型,旨在扩展多模态能力至八种语言,强调数据质量和文化敏感性。

图:Maya 框架

Maya 利用了经过严格毒性过滤和均衡分布的 558,000 个图像-文本对(扩展至440万个样本,涵盖八种语言)的新预训练数据集,并基于 LLaVA 框架、SigLIP (一种能够处理可变输入维度的视觉编码器)和 Aya-23(一种经过 23 种语言训练的多语言语言模型)构建,在多个多语言基准测试中超越了同等规模的模型

在性能方面,在 LLaVA-Bench-In-The-Wild 等多语言 benchmark 上,Maya 在八种语言中的五种语言中优于类似规模的模型,如 LLaVA-7B 和 PALO-7B,包括由于其强大的翻译和数据集设计而在阿拉伯语中取得的显著成功。

在仅英语的 benchmark 中,Maya 保持了具有竞争力的准确性,在无毒性变体的文本翻译和数值计算等任务中观察到略有提高。

然而,一些复杂的推理任务显示性能略有下降,表明删除多样化的、可能有毒的内容可能会影响某些功能。

03
CodeArena:让大型语言模型 (LLM) 竞赛构建相同应用,并实时显示排名

项目地址:https://github.com/Nutlope/codearena

CodeArena 是一个通过观察开源软件(OSS)编码大模型(LLM)之间的对战来寻找最佳模型的平台。它让多个LLM 同时构建相同的应用程序,并实时显示排名结果,方便用户观察不同 LLM 的性能差异。

CodeArena 使用 Together AI 运行LLM,生成代码,结合 Sandpack 渲染 UI 代码,Next.js 和 TypeScript 作为应用框架,Shadcn 和 Tailwind 进行 UI 组件和样式设计,并使用 Plausible 和 Helicone 进行分析和可观测性。

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章