Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

科技 2024-11-06 20:31 广东

SmartFlowAI

点击上方蓝字关注我们

本文转载自量子位（公众号：QbitAI），作者：量子位梦晨
全文约 2000 字，预计阅读时间 5 分钟

复刻OpenAI o1推理大模型，开源界传来最新进展：

LLaMA版o1项目刚刚发布，来自上海AI Lab团队。

简介中明确：使用了蒙特卡洛树搜索，Self-Play强化学习，PPO，以及AlphaGo Zero的双重策略范式（先验策略+价值评估）。

在2024年6月，o1发布之前，团队就开始探索蒙特卡洛树搜索提高大模型数学能力，积累了一些关注。

这次最新开源代码，也在开发者社区引起热议。

OpenAI o1系列发布后，团队开始升级算法，专注于数学奥赛问题，作为OpenAI草莓项目的开源版本。

10月初，团队上传新论文，使用成对优化（不直接给出绝对分数，而是比较两个答案的相对优劣）提高Llama模型数学奥赛能力。

在最难的AIME2024基准测试30道题中，原版LLaMA-3.1-8B-Instruct做对2道，优化后做对8道，超过了除o1-preview和o1-mini之外的其他商业闭源方案。

10月底，团队宣布在基于AlphaGo Zero架构复刻OpenAI o1的努力中取得了重大进展：

已成功使模型在学习过程中通过与搜索树交互获得高级思维能力，无需人工标注。

不到一周时间，项目便开源了。

LLaMA版o1最新进展

目前已开源内容包括：预训练数据集、预训练模型、强化学习训练代码。

OpenLongCoT-Pretrain数据集，包含10万+条长思维链数据。

每条数据包含一个完整的数学问题推理过程，包含思考内容和评分结果。

例如一个几何问题，包含了问题描述、图形坐标、计算过程和结论推导等完整的推理链路，以及对各个推理步骤的批评和验证内容，对推理过程进行评价和指导。

在此数据集继续预训练后，模型可读取和输出类似o1的长思维链过程。

预训练代码尚未发布，目前推荐使用LLaMaFactory代替。

有意思的是虽然项目名为LLaMA-O1，但目前官方给的预训练模型基于谷歌Gemma 2。

目前在预训练模型基础上，可以继续进行强化学习训练，从代码中可以看出训练过程如下：

使用蒙特卡洛树搜索进行自我对弈(self-play)以生成经验
将经验存储在优先经验回放缓冲区中
从缓冲区采样批次数据进行训练
更新模型参数和经验优先级

论文中也给出了训练过程的图示。

同时训练代码中使用了以下关键技术点：

使用LoRA进行参数高效微调
使用PPO算法作为策略优化方法
实现了GAE(Generalized Advantage Estimation)算法用于计算优势函数
使用优先经验回放提高训练效率

最后，LLaMA-O1代码发布在名为SimpleBerry的GitHub账号下，并没有特别简介，还比较神秘。

其他与SimpleBerry有关的账号和官网中，只能看出性质是一个研究实验室，也并未透露更多研究方向信息。

其他o1复刻项目进展

除LLaMA-O1之外，另一个公开进展的o1复刻项目O1-Journey来自上交大团队。

团队在十月初发布了第一份进展报告，其中介绍了创新Journey Learning范式，以及第一个成功将搜索和学习整合到数学推理中的模型。

O1-Journey核心开发团队主要由上交大大三、大四本科生，以及上交大GAIR实验室（生成式人工智能研究实验室）的一年级博士生组成。

指导教师包括上交大副教授刘鹏飞，姚班校友、斯隆奖得主李远志等。

LLaMA-O1：
https://github.com/SimpleBerry/LLaMA-O1
相关论文：
https://arxiv.org/abs/2406.07394
https://arxiv.org/abs/2410.02884

O1-Journey：
https://github.com/GAIR-NLP/O1-Journey/

— 完 —

往期 · 推荐

DocLayout-YOLO，让多样性文档布局检测更快、更准、更强

一文带你了解具身智能的学习进化架构技术路线

LLM101N：原理到代码，从零带你读懂ngram算法

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（四）：向量数据库中的检索优化

🌠 番外：我们期待与读者共同探讨如何在 AI 的辅助下，更好地发挥人类的潜力，以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践，我们可以更清晰地认识到 AI 的辅助作用，并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”，加入机智流大模型交流群！

一起“点赞”三连👇

http://mp.weixin.qq.com/s?__biz=Mzg2NzU4MDgzMA==&mid=2247525836&idx=2&sn=d2b92bf330ceae62de659f17a3f76f05

机智流

共赴 AI 时代浪潮~涉及涵盖计算机视觉、大语言模型、多模态模型等AI领域最新资讯知识分享~

「学术趋势」EMNLP 24 知识图谱 Top15 被引盘点

「学术趋势」EMNLP 24 多模态 TOP15 被引论文盘点

AI周报：Perplexity 推出 AI 购物功能 | Mistral AI 发布 1240 亿参数多模态图像模型

大会日程公布｜PyCon China 2024 周末上海见！

第一次用书生大模型，我做出了《黑神话：悟空》通关助手！

「学术趋势」EMNLP 24 智能体 TOP15 被引论文盘点

「学术趋势」EMNLP 24 复杂推理 Top15 被引盘点

「学术趋势」EMNLP 24 评测领域 Top15 被引盘点

速报：Scaling law已终结？｜阿里云发布重磅AI编程模型：Qwen2.5-Coder

「学术趋势」EMNLP 24 最佳论文盘点

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（四）：检索优化进阶

「学术趋势」EMNLP 24 高引用 TOP 15

AI周报：AlphaFold 3开源 | Qwen 2.5-Coder性能媲美GPT-4o

FastChat（二）：负载均衡策略

R-CoT: 利用反向思维链弥补合成数据与实际数据之间的GAP，实现多模态几何数据生成能力突破

早鸟优惠即将截止！PyCon China 2024 即将到来

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

简单聊聊人工评测

Meta宣布举办Llama黑客马拉松，总奖金高达1.5万美元 || 混元开源新400B MoE模型

早鸟优惠即将截止！PyCon China 2024 即将到来

Google 论文 | 数据集关系大揭秘：基于用户任务的全面分析

DeepMind：CoT推理无需prompt也可进行，一文回顾CoT推理及其发展（上）

Google：推出MDAgents提升医疗决策的AI协作能力，本周AI周报来了

Meta：通过触摸感知、灵活性和人机交互的进步来推进嵌入式人工智能

Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

鹅厂版AI笔记悄悄上线，微信公众号优质内容秒变专属知识库，实测在此

时间地点公布｜PyCon China 2024 上海见！

中国自动驾驶时代记：技术、理想和“真经路”｜产业家特稿

DocLayout-YOLO，让多样性文档布局检测更快、更准、更强

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

一文带你了解具身智能的学习进化架构技术路线

AI周报：LangChain开始商业化，LlamaIndex开发AI Agent课程，Github Copliot支持多家模型

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

LLM101N：原理到代码，从零带你读懂ngram算法

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（四）：向量数据库中的检索优化

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

咋做一个自己的评测数据集呢

免费 | 万人共学的书生大模型实战营公益课程来啦!

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

FastChat（一）：200 行代码实现 Mini FastChat

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

免费 | 万人共学的书生大模型实战营公益课程来啦!

落地分享：来看 UFH AI 医疗大模型如何助力国际化诊疗场景

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉