官网:https://internvl.github.io/blog/2024-12-05-InternVL-2.5/
近日,上海AI实验室推出开源多模态大语言模型 InternVL 2.5,支持从 1B 到 78B 的多种规模,适应不同的使用场景和硬件需求。
InternVL 2.5 基于 InternVL 2.0 构建,保留了相同的模型架构,即 ViT-MLP-LLM 架构,采用动态高分辨率训练和渐进式扩展策略,提升模型性能。
书生·万象 InternVL 2.5 的主要功能:
多模态理解:处理和理解来自不同模态(文本、图像、视频)的信息。
多学科推理:在多个学科领域内进行复杂推理和问题解决。
现实世界理解:对现实世界场景和事件进行理解和分析。
多模态幻觉检测:识别和区分真实和虚构的视觉信息。
视觉地面化:将文本描述与图像中的实际对象相匹配。
多语言处理:支持多种语言的理解和生成能力。
纯语言处理:执行文本分析、生成和理解等语言任务。
InternVL2.5-78B 是首个在多模态理解基准(MMMU)上得分超过 70 的开源模型,超越了 ChatGPT-4o 和 Claude-3.5-Sonnet 等商业模型。
论文地址:https://arxiv.org/abs/2412.07112
图:Maya 框架
在性能方面,在 LLaVA-Bench-In-The-Wild 等多语言 benchmark 上,Maya 在八种语言中的五种语言中优于类似规模的模型,如 LLaVA-7B 和 PALO-7B,包括由于其强大的翻译和数据集设计而在阿拉伯语中取得的显著成功。
在仅英语的 benchmark 中,Maya 保持了具有竞争力的准确性,在无毒性变体的文本翻译和数值计算等任务中观察到略有提高。
然而,一些复杂的推理任务显示性能略有下降,表明删除多样化的、可能有毒的内容可能会影响某些功能。
项目地址:https://github.com/Nutlope/codearena
CodeArena 是一个通过观察开源软件(OSS)编码大模型(LLM)之间的对战来寻找最佳模型的平台。它让多个LLM 同时构建相同的应用程序,并实时显示排名结果,方便用户观察不同 LLM 的性能差异。
CodeArena 使用 Together AI 运行LLM,生成代码,结合 Sandpack 渲染 UI 代码,Next.js 和 TypeScript 作为应用框架,Shadcn 和 Tailwind 进行 UI 组件和样式设计,并使用 Plausible 和 Helicone 进行分析和可观测性。