o1圈杀疯了，阿里又开源Marco-o1

科技 2024-11-24 00:01 北京

自OpenAI o1发布后引发了大型推理模型（LRM）研究热潮，这不，阿里又开源了Marco-o1。

Marco-o1更加重视开放式问题的解决，目标是解决这个问题：“o1模型能否有效地推广到缺乏明确标准且奖励难以量化的更广泛领域？”

Marco-o1由链式思考（CoT）微调、蒙特卡洛树搜索（MCTS）、反射机制和创新的推理策略驱动——针对复杂的现实世界问题任务进行了优化。

经典的草莓（strawberry）问题，轻松拿下

在MGSM上Marco-o1准确性得到了提升

通过MCTS扩展解决方案空间

将蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）与大型语言模型（LLMs）集成，以增强Marco-o1模型的推理能力：

Marco-o1整体框架

MCTS框架中的节点和动作：

在MCTS框架中，每个节点代表问题解决过程中的一个推理状态。
从节点可能的动作是由LLM生成的输出，这些输出代表推理链中的潜在步骤或微步骤。

展开和奖励计算：

在展开阶段，LLM继续推理过程直到达到一个终端状态。
通过计算每个状态的值来引导MCTS，这个值是通过计算信心分数得到的。

信心分数的计算：

对于在展开过程中生成的每个标记（token），通过将softmax函数应用于该标记的对数概率以及前5个替代标记的对数概率来计算其信心分数。
信心分数反映了所选标记相对于其他顶部选择的概率，有效地将分数标准化在0和1之间。

整体奖励分数：

在获得展开序列中所有标记的信心分数后，通过计算所有标记的平均信心分数来得出整体奖励分数。
这个平均值作为奖励信号，评估在展开期间采取的推理路径的质量。更高的整体奖励分数表示更有信心且可能更准确的推理路径。

解决方案空间的扩展：

通过这种方法，有效地扩展了解决方案空间，允许模型探索大量的推理路径，并根据计算出的信心分数选择最可能的路径。

实验结论与case分析

实验结果表明，Marco-o1模型在不同语言和配置下提高了推理能力。
由于使用信心分数作为奖励，树搜索结果表现出显著的随机性，目前还无法确定哪种行动策略更优越。
随着奖励信号变得更加准确，MCTS提供的更大解决方案空间将展示出更大的潜力。

数学推理case分析

MCTS扩展了正确答案的解决方案空间。在MGSM数据集上，Marco-o1-CoT（左）与Marco-o1-MCTS（步）（右）的比较。尽管Marco-o1-CoT未能提供正确答案，但将MCTS与步级动作集成允许模型探索更广泛的解决方案空间，增加了找到正确解决方案的可能性。

更细的粒度与微步增强了问题解决能力。在MGSM数据集上，Marco-o1-MCTS（步）（左）与Marco-o1-MCTS（32个标记的微步）（右）的比较。步级动作策略没有得出正确答案，但通过使用更细粒度的32个标记的微步，模型成功地导航了解决方案空间以找到正确答案，展示了增加动作粒度的有效性。

翻译任务case分析

俚语表达“它如此美丽以至于令人着迷，上部有明显的韩式风格，柔软蓬松的材质厚度恰到好处，并且有底层的衬托，创造出独特且适合日常穿着的装扮”的翻译比较。

俚语表达“它如此美丽！而且它如此便宜，超级直且不卷曲。买它，买它！”的翻译比较。

使用Marco-o1翻译任务演示俚语表达“这双鞋鞋底舒适，强烈推荐购买”。

https://arxiv.org/pdf/2411.14405Marco-o1: Towards Open Reasoning Models for Open-Ended Solutionshttps://huggingface.co/AIDC-AI/Marco-o1

来源 | PaperAgent

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247551006&idx=3&sn=ac99fffcf14bcffd0cf67d87d52a81c6

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

离谱！裁员裁出新高度了。。

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

多模态大模型技术点总结

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

[送5本]《科技论文写作指南》理工科学生福音

o1圈杀疯了，阿里又开源Marco-o1

吴恩达力荐，100%好评-《LangChain大型语言模型(LLM)应用开发》免费分享

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

新一轮高校裁员潮，来了！

[送5本]《动手学自然语言处理》大模型改变了NLP的游戏规则了吗

LLM逻辑推演策略选择：推理时计算 vs 训练时计算

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

教育部公布！25考研人数，再降50万！

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

一篇小型语言模型技术最新全面综述

M3DocRAG：文档问答用哪个多模态大模型效果最好？

已公示！“东方理工大学”，来了

聊一聊做角色扮演大模型的经验

绝对顶流！清华博导倾力编写的《图神经网络导论》pdf免费分享

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

ICLR 高分：深入研究多模态大模型的对齐策略

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

双非二战字节算法岗，拿下70k offer.....

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

o1的风又吹到多模态，直接吹翻了GPT-4o-mini

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

微调图像大模型的经验分享

昨夜， LLM 已经彻底凉凉了...

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

微软开源角色Agents，直接模拟了整个世界~

2024最新神书-《大模型应用程序构建指南》免费pdf分享

2024最新,李宏毅深度学习教程pdf免费分享！绝对值得反复阅读的神书！

已注销！985新校区，不建了

RAG黑盒被打开了，可视化RAGViz闪亮全场

LLM性能优化中的一些概念扫盲

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

Cursor一不小心把自家的底牌也放出来了~

[送5本]《动手学机器学习》上海交大ACM班总教头团队重磅新作，带你动手学机器学习！

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

LLM性能优化中的一些概念扫盲

暴跌94%，裁员9600人。。。

[送5本]《大语言模型：原理、应用与优化》大模型未来发展方向大揭秘！

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

DRL2022新书-《深度强化学习》免费pdf分享

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

中央批准：中央候补委员、教育部副部长，任C9大学书记

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

上交2024最新-《动手学大模型》实战教程及ppt分享！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉