最新开源：阿里巴巴开源推理模型 Marco-o1！智子引擎开源多模态MoE大模型 Awaker2.5-VL!

文摘 2024-11-24 16:26 广东

PART

阿里巴巴开源推理模型 Marco-o1，聚焦开放式问题推理

11 月 22 日，阿里巴巴国际数字商业集团 MarcoPolo 团队发布了 Marco-o1，这是一种旨在推进开放式问题解决的大型推理模型 (LRM)。

Marco-o1 不仅关注数学、物理和编程等有标准答案的学科，还强调开放性解决方案。通过使用思维链（CoT）微调、蒙特卡罗树搜索(MCTS)和反思机制等创新技术，Marco-o1 优化了复杂的现实世界问题解决任务。

论文标题：Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
论文链接：https://arxiv.org/pdf/2411.14405
项目地址：https://github.com/AIDC-AI/Marco-o1

Marco-o1 的核心优势体现在四个方面：

思维链微调：团队使用开源CoT数据集和自研合成数据对基础模型进行全参数微调，打造出Marco-o1-CoT。
MCTS解决方案扩展：通过将大语言模型与蒙特卡罗树搜索（MCTS）相结合，利用模型输出的置信度来指导搜索，大大扩展了解决方案空间。
创新推理策略：实现了全新的推理行动策略和反思机制（Marco-o1-MCTS Mini-Step），在MCTS框架内探索不同的行动粒度，并引导模型进行自我反思。
突破性翻译应用：首次将大型推理模型（LRM）应用于机器翻译任务，探索多语言和翻译领域的推理时间扩展规律。

图2. Marco-o1 框架

通过微调 Qwen2-7B-Instruct 与过滤后的 Open-o1 CoT 数据集、Marco-o1 CoT 数据集和 Marco-o1 指令数据集的组合，Marco-o1 提高了对复杂任务的处理能力。

表1. Marco-o1 数据集

实验结果显示：

MGSM英文数据集：准确率提升 6.17%；
MGSM中文数据集：准确率提升 5.60%。

在翻译任务中，Marco-o1 在翻译俚语表达方面表现出色。例如，该模型正确地将中文中字面意思为「这个鞋拥有踩屎感」的俗语翻译成了英文「This shoe has a comfortable sole」（这只鞋的鞋底很舒服），证明了它对俗语细微差别的精准把握。

PART

智子引擎开源 Awaker2.5-VL，一款突破性多模态MoE大模型

论文标题：Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
论文地址：https://arxiv.org/abs/2411.10669
代码仓库：https://github.com/MetabrainAGI/Awaker

Awaker 是由 Metabrain AGI 开发的一系列多模态大模型，包括多模态大语言模型Awaker-VL、多模态检索模型 Awaker-Sou 和视频生成模型 Awaker-Gen。该项目旨在通过专家混合的方式稳定高效地扩展基础多模态大语言模型，已在 MME-Realworld 和 MMBench 等基准测试中取得了新的最先进成果。

Awaker2.5-VL 的架构基于高效的LoRA-MoE设计，包含多个专门的TaskExpert和一个GlobalExpert。这一创新设计扩展了模型在不同任务上的能力，有效地缓解了多模态“多任务冲突”的问题。

该模型还对MoE中门控网络的路由策略进行了细致的研究，并设计了一个简单且十分有效的Instance-level的路由策略，提升了模型训练的稳定性。

Awaker2.5-VL 的训练过程分为三个阶段，包括:

第一阶段：初始化训练，此阶段中仅使用单个LoRA进行模型训练，冻结其他部分；
第二阶段：进行MoE模块的训练，此时全模型的参数会进行更新；
第三阶段：指令微调阶段，专注于增强模型对指令的跟随能力，并准备其在下游任务中的表现。

通过使用1200万的指令数据，模型不仅涵盖了英文和中文任务，还在复杂的多模态情境下展现了强大的理解与生成能力。

在多项重要基准测试中，Awaker2.5-VL 表现出色。

MME-Realworld 是当前最难、规模最大多模态评测基准，而 MMBench 是主流多模态大模型参评最多的评测基准之一。

Awaker2.5-VL 在MME-Realworld 和 MME-Realworld-CN 都位列榜首，且是目前唯一在该Benchmark上“及格”（超过60分）的模型。考虑到 MME-Realworld 主要面向自动驾驶、遥感、视频监控等复杂场景，Awaker2.5-VL 在 MME-Realworld上的出色表现很好地展示它在落地应用中的巨大潜力。

Awaker2.5-VL 分别在 MMBench、MMBench_v1.1、MMBench_CN、MMBench_CN_v1.1 四个榜单进行了测评，并且分别以英文能力平均分数（MMBench 和 MMBench_v1.1）和中文能力平均分数（MMBench_CN 和 MMBench_CN_v1.1）进行排序。Awaker2.5-VL 在中文场景和英文场景中分别位列第9和第7。在同量级参数量的模型中，Awaker2.5-VL 表现远超其他模型。

PART

华科发布MoE Jetpack框架，收敛速度最高8倍，准确率提升超30%！

华中科技大学的研究人员提出 MoE Jetpack 框架，通过 Checkpoint Recycling 方法和 SpheroMoE 结构，将密集激活模型的预训练权重微调为混合专家（MoE）模型，从而免去了MoE模型的预训练过程，大幅提升了MoE在下游任务中的收敛速度、准确性和计算效率。MoE Jetpack 在Transformer和CNN架构上表现出色，适用于多种视觉数据集。

论文标题：MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks
论文地址： https://arxiv.org/abs/2406.04801
代码地址： https://github.com/Adlith/MoE-Jetpack

MoE Jetpack 框架的核心创新包括：

Checkpoint recycling：通过采样密集模型权重产生差异化的专家，组成MoE模型的初始化权重，从而加速模型收敛、提升性能，并避免大规模的MoE模型预训练。
SpheroMoE Layer：通过调整MoE结构，利用交叉注意力机制进行专家分配，将query和key投影到超球空间以提升微调过程的稳定性，并通过一系列专家正则化方法有效缓解MoE模型微调过程中的过拟合现象。

图2. Checkpoint Recycling 和 SpheroMoE 结构

实验结果表明：MoE Jetpack 在多个数据集和网络结构上实现了显著的性能提升。

在ImageNet-1K上，模型收敛速度提升 2 倍，准确率提高了 2.8%；
在小规模数据集上，收敛速度可达 8 倍提升，准确率提升超过 30%。

图1.（a）MoE Jetpack将密集预训练权重转化为MoE模型的初始化权重，在性能提升的同时保持等效的FLOPs。(b) 未预训练的ViT、微调的ViT、未预训练的Soft MoE 与MoE Jetpack在多个视觉数据集上的性能比较。

表1. MoE Jetpack基于ViT和ConvNeXt在8个下游数据集上的性能表现

图5. MoE Jetpack 带来了收敛速度提升

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉