LLaVA-o1：国产开源小型多模态AI模型获得超越GPT-4o-mini 大模型的性能

科技 2024-11-20 08:00 中国香港

以 OpenAI o1 为代表的大型语言模型展示了强大的推理能力，充分验证了语言模型推理时计算的有效性。北京大学、清华大学研究人员日前发布的 LLaVA-o1^[1] 模型，凭借其独特的多阶段自主推理能力，在多项任务中展现出惊人的性能，引发了广泛关注与热议。

LLaVA-o1 的核心算法：多阶段自主推理

早期的开源视觉语言模型（VLM）主要采用直接预测方法，在回答问题时立即生成简短的答案。这种直接反应范式的主要局限性在于它缺乏结构化的推理过程，这使得它对需要逻辑推理的任务效率较低。作者研究发现，VLM 经常在没有充分组织问题和可用信息的情况下发起响应。此外，它们经常偏离对结论的逻辑推理，而不是过早地提出结论并随后试图证明其合理性。鉴于语言模型会逐一生成响应，一旦引入错误的结论，模型通常会沿着有缺陷的推理路径继续。

而 LLaVA-o1 的亮点便在于其创新的多阶段自主推理机制。这种机制允许模型在处理复杂任务时,像人类一样分步思考,从而在保持模型规模较小的同时,实现接近甚至超越大型模型的性能。

下面是具体的步骤：

问题分解：模型首先将复杂任务分解为多个子任务。
信息收集：对于每个子任务,模型会从图像和上下文中收集相关信息。
逐步推理：基于收集的信息,模型进行逻辑推理,得出中间结论。
综合分析：将各个子任务的结果整合,形成最终答案。

这种结构化的推理方法使 LLaVA-o1 能够处理需要深度逻辑思考的复杂问题,而不是简单地生成表面化的回答，进而克服错误或幻觉输出。

在实现上,LLaVA-o1 项目在以下几个方面进行了创新:

1.LLaVA-o1-100k 数据集：研究团队收集了包含 99k 个图像问答对的新数据集,并使用 GPT-4 生成详细的结构化推理过程。这为模型提供了高质量的训练数据。

2.阶段级波束搜索：提出了一种新的推理时间级波束搜索方法,能为每个推理阶段生成候选者并选择最佳选项。这种方法在粗粒度和细粒度搜索之间取得了平衡,显著提升了模型性能。

3.结构化训练方法：通过在训练过程中引入结构化标签,使模型能够学习到更系统、更有逻辑的推理过程。

性能评估

LLaVA-o1 在多个多模态推理基准上展现出了优异的性能:

在六个需要高级推理能力的基准测试中,LLaVA-o1始终优于许多类似甚至更大规模的开源模型,如 InternVL2-8B 、Ovis1.5-Gemma29B 等。
值得注意的是,LLaVA-o1 甚至超越了GPT-4V-mini 和Gemini-1.5-pro 等某些闭源模型的表现。
与其基础模型 Llama-3.2-11B-VisionInstruct 相比,LLaVA-o1 在各种多模态推理基准上的性能提升了 8.9%。

在实际的示例里，相较于Llama-3.2-11B-Vision-Instruct模型推理过程表现出来的明显错误。LLaVA-o1成功地分析了图像中的场景,识别了相关元素,并通过逻辑推理得出了正确的结论。

小结

LLaVA-o1 的证明了结构化推理方法在视觉语言模型中的重要性。尽管只使用了 10 万个训练样本和一种简单而有效的推理时Scaling 的方法,LLaVA-o1 就能够在多个基准上超越更大的模型,那么这样的思想是否能够扩展到其他模态上，将会是一个很不错的尝试。

参考资料

[1]

LLaVA-o1: https://arxiv.org/pdf/2411.10440

http://mp.weixin.qq.com/s?__biz=MjM5MTc4MDM1MQ==&mid=2651741972&idx=1&sn=01306b377ed5c9c622e4501c0654dcd9

新一代智能化应用

人工智能是一门认知科学，而新一代的智能化应用是一个系统工程。智能应用程序是人工智能驱动的应用程序，可转变用户的工作效率、自动化流程并获得见解

最新文章

UnitsNet 库简介

AI智能体生态圈和软件栈

C# 2024年Visual Studio实用插件集合

使用 BenchmarkDotNet 对 .NET 代码进行性能基准测试

AI Agent再进一步！Anthropic发布大模型上下文协议MCP：让任何资源快速变成大模型的工具，突破大模型的能力边界！

.NET 8 实现通用权限开发框架

AI 推理市场全景解析：战火从云端到边缘端

ASP.NET Core 知识速递：HTTP响应顺序，先头后尾

GTK#框架让C# Winform程序跨平台运行

Cursor v0.43 版本更新：Agent 功能重磅登场

Microsoft Fabric Data Factory 新增功能和路线图

社区发布非官方龙架构 .NET 9 SDK 发行版

一款基于.NET8开源的通用管理平台，支持模块化、WinForms 和 WPF

Cursor的最佳拍档来了，不写提示词，只要会截图就能做程序员

回顾 | .NET Talks - .NET 9 AOT 的突破

Pytorch前负责人谈AI发展新趋势，不要再卷基座模型和MAAS了

深度解读微软Speech服务：让语音识别走进现实

关于 GitOps 和数据库回滚的残酷事实

企业需要的不是大模型：基于国产算力落地企业级AI的实践与方法论

回顾 | .NET Talks - .NET 9 分布式 Web 全栈开发

DeepSeek 推理模型预览版上线：独创"深度思考"能力，性能超越openAI o1

使用Visual Studio分析.NET Dump，快速排查内存泄漏问题！

.NET9里WinForm更新了什么

一款为现代企业量身打造的开源功能强大CRM管理系统

C#开发最快的浏览器，打造极速浏览体验

LLaVA-o1：国产开源小型多模态AI模型获得超越GPT-4o-mini 大模型的性能

.NET开源实时应用监控系统：WatchDog

一个基于 WPF 和 Halcon 视觉编程实战案例

SemanticKernel系列，AI系列，SmartFill介绍视频系列

揭秘“让Claude 3.5 像 OpenAI o1 那样思考”的小孩哥神级Prompt是怎么炼成的

企业不需要大模型：基于国产算力落地企业级AI的实践与方法论

.NET 各版本贡献者列表

.NET 9 中 LINQ 新增功能实操

狙击 K8s 用户的“流氓”专利：分布式软件定义网络 (dSDN)

CNCF 宣布 Dapr 毕业

人工智能代理的崛起与未来展望

构建面向未来的数字核心：企业如何利用代理式AI引领变革

利用腾讯元器，将公众号变身为强大的.NET AI智能体

下一代 Serverless 架构 - SpinKube（Kubernetes WebAssembly 运行时解决方案）

回顾 | .NET Talks - 实战 Avalonia Headless 测试

PureML：大模型革新数据处理，能够自动进行数据清洗和特征工程

基于C#开源、功能强大、灵活的跨平台开发框架 - Uno Platform

WPF for .NET 9 中的新增功能

.NET现在可以做什么，有哪些公司在用的？

微软“虚拟小人”项目或将激发出一大批高价值生成式AI场景，打破“叫好不叫座”困境

.NET 9正式发布，亮点是.NET Aspire和AI

Qwen2.5-Coder 系列震撼发布：开源旗舰编程模型媲美 GPT-4o

相约 .NET 9！｜共同关注 .NET Conf 2024 最新发布

基于.NET开源、功能强大且灵活的工作流引擎框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉