ChatGPT o1开源替代出现了

文摘 2024-11-06 11:09 北京

ChatGPT o1是一个回答之前，先进行深入思考的模型。非常擅长解决复杂问题，比如科学、编程、数学。‍‍‍‍‍‍‍‍

看一下o1的打分如何：‍‍

o1，指明了接下来一年大模型的发展方向。llama-o1是一个基于蒙特卡罗树搜索（Monte Carlo Tree Search, MCTS）的o1开源替代。我们来看一下MCTS的工作原理，它是如何工作的？

MCTS 的工作原理

MCTS 是通过对决策空间进行随机采样来逐步优化选择的算法，逐步构建搜索树，并通过模拟不断改进决策。其过程通常分为四个主要步骤：

选择（Selection）：从根节点开始，按照某种策略（通常是 UCT，即上限置信树算法）在树中选择一个子节点，直到找到一个尚未被完全探索的节点。这一策略会平衡探索（尝试未充分了解的选项）和利用（选择已知效果好的选项）。
扩展（Expansion）：如果当前节点代表的游戏状态不是终止状态，并且可以进一步扩展，则生成一个或多个子节点，表示从当前状态采取新的行动。
模拟（Simulation）：从扩展的节点开始，使用随机或简单的策略进行模拟，直到达到游戏结束状态。这一模拟通常是随机进行的，目的是评估从该节点开始的行动的潜在结果。
回溯（Backpropagation）：将模拟的结果（如胜利、失败或平局）向上传递，更新沿途每个节点的信息，包括节点被访问的次数和胜率。这使得搜索树可以不断改进和调整。

MCTS 的主要组成部分

树策略（Tree Policy/Selection）：决定如何在树中导航。UCT 是一种常用方法，可以平衡探索和利用。
默认策略（Default Policy/Simulation）：用于从给定状态开始模拟游戏直至结束的策略，通常是随机的，但可以根据问题的特点进行优化。
回溯（Backpropagation）：用每次模拟的结果来更新路径上的节点信息，包括访问次数和结果统计。

举例说明

以围棋为例：

算法从当前棋盘位置出发，选择一系列可能的落子路线进行探索。
如果到达一个未被评估的局面，则会将这个局面作为新节点添加到树中。
然后从这个新节点开始随机模拟游戏至结束，得到结果（如胜或负）。
最后将这个结果向上传递，更新路径上所有相关节点的信息，指导未来的决策。

MCTS 的优点

可扩展性：可以处理非常庞大的决策空间。
自适应性：适用于游戏动态未知或不确定的情况。
渐进最优性：随着模拟次数的增加，MCTS 会逐渐趋近于最优策略。

应用领域

游戏：MCTS 因在 AlphaGo 中的应用而广受关注，AlphaGo 是一个击败了顶尖围棋选手的人工智能程序。
规划与机器人：在充满不确定性的环境中用于解决决策问题。
优化问题：适用于需要进行序列决策的优化场景。

llama-o1算法工作流程如下：

1. 问题输入与初始化

输入数学问题。
初始化 LLM（例如 LLaMA-3.1-8B-Instruct）。

2. 生成初始解决方案

使用 LLM 生成初始的数学问题解决方案。

3. Self-Refine 优化

Critiquing：对初始解决方案进行自我批评，识别其中的错误和不足之处。
Rewriting：根据自我批评的结果，重写解决方案以改进和纠正错误。

4. Monte Carlo Tree Search（MCTS）

Selection：使用 UCT（Upper Confidence Bound applied to Trees）算法选择一个节点进行扩展。
Expansion：对选定的节点进行扩展，生成新的解决方案。
Evaluation：通过配对首选奖励模型（PPRM）评估新生成的解决方案的质量。
Backpropagation：将评估结果回传到树中的相关节点，更新 Q 值。

5. Pairwise Preference Reward Model（PPRM）

偏好预测：通过比较两个解决方案的质量，预测哪个解决方案更优。
偏好模型训练：使用强化学习从人类反馈（RLHF）的技术训练 PPRM，以更准确地评估解决方案之间的偏好关系。

6. Enhanced Borda Count（EBC）方法

局部偏好计算：基于 PPRM 生成的胜败矩阵，计算每个解决方案的局部偏好。
传递闭包：应用 Floyd-Warshall 算法计算偏好关系的传递闭包。
全局排名：使用 Borda Count 方法将局部偏好转化为全局排名。
量 ile 得分：计算每个解决方案的全局量 ile 得分。

7. 结果验证与选择

根据 EBC 方法得到的量 ile 得分，选择最优的解决方案作为最终答案。

8. 迭代优化

根据需要重复 Self-Refine 和 MCTS 过程，直到达到预定的迭代次数或满足其他停止条件。

9. 最终输出

输出最优解决方案及其推理过程。

10. 性能评估

使用 pass@k 和 major@k 等指标对算法的性能进行评估。

11. 调优与优化

根据性能评估结果，调整框架中的参数和策略，以进一步提高性能。

12. 应用与拓展

将 LLaMA-Berry 框架应用于更广泛的问题，包括但不限于其他科学和工程领域的问题求解。

算法的关键特点：

迭代改进：通过 Self-Refine 不断改进解决方案。
策略搜索：利用 MCTS 在解决方案空间中进行有效的搜索。
偏好评估：通过 PPRM 评估解决方案之间的偏好关系。
全局排名：使用 EBC 方法将局部偏好转化为全局排名。
无需额外训练：LLaMA-Berry 框架能够在不进行额外训练的情况下提升 LLM 的性能。
适用于复杂问题：框架在复杂的奥林匹亚级数学问题上表现出色。

通过这一系列的步骤和特点，LLaMA-Berry 框架能够有效地提升大型语言模型在解决高级数学问题时的推理能力和解题效率。

行恒编程1对1

Python、R、CS编程1对1咨询辅导，一对一在线/线下会议教学模式，超过100次的高分成功辅导真实案例。智算中心运营方案规划与大模型AI咨询服务，2021年开始从事大模型架构工作。

最新文章

deepseek r1推理能力为什么这么强9

AutoSRT视频双语字幕生成Mac App的年终总结，发现与提升闲置Mac的新价值

国产推理模型Deepseek R1快速读

AI时代的文件系统颠覆者

AI下一个大事件将是Agentic AI。Agentic AI：AI领域的黑马，如何颠覆未来？

提升Ollama在Mac上运行速度，优化AutoSRT字幕生成速度

2025年的AI发展GPT-4、Gemini

AI用户故事：留学党的救星！AutoSRT一键搞定字幕翻译

AI：12月7日全球最新关键进展，对国内来说形势严峻

AI新产品AutoSRT：为你的视频增加双语字幕

一键为你的视频增加中英双语字幕，免费，无需联网

AI用户故事：00后大学女生在北京做陪诊，实现大学财务自由

【征文活动】分享您的《有空吗》产品使用经历

有空吗？原行恒晚自习全新改版升级，基于AI开发完成，全新的时间管理新模式提升会议安排、任务管理、灵活就业人员的工作效率新软件

我用Cursor AI开发了一个记录时间安排寻找空闲时间的web app，只用了4个小时

由AutoGLM卡顿想到的新型AI Agent通算智算协同解决方案

ChatGPT o1开源替代出现了

什么是专线网络？

FastAINet能否用于降低大模型训练的成本？

FastAINet通过光纤直连专线加速大模型训练与推理

AutoGLM的未来发展趋势

智算技术与算力规划设计及部署方案与实践在新疆/南京开班了！！！

FastAINet，AI时代的新型CDN

AI智算中心互联互通专线光纤网络解决方案: FastAI

ChatGPT Plus 企业共享计划之二：服务规格

chatgpt plus企业共享计划

Notebook LM是当下最好的笔记产品，也是最好的AI应用案例

GPT o1的局限性

在视频创作领域的探索，发布第一个AI视频制作镜像AI TAI Studio。让生产优质好玩的视频，越来越简单

中文TTS开源产品chattts使用体验

特斯拉FSD将要在明年一季度在中国上线，也就是2025年Q1，绝对的利好AI产业发展

scaling law将迎来大修改

AI里面一个非常简洁的多头注意力实现

OpenAI 正在逐渐失去产AI战争的红利

出二手浪潮10台a800，用了一年，还有两年质保

gpt5烟雾弹又来了

OpenAI 将跳过 GPT-5 直接上 GPT-6，内部代号 Orion（猎户座）

GPT5大概率今年发不了

将长文字转换为带声音的视频

出租手上富余的3台A800机器，价格可谈

读懂泛茶资本局的师傅：什么ai与什么G屁U的做局手法

市场价打5折出售两台华为昇腾910B3机器，23年底购入使用半年左右的机器

智谱开源CogVideoX安装体验

可以支持大概10亿参数的分布式大模型训练框架OpenDiLoCo

llama3.1的功能与能力对齐或超过闭源模型

一个关于多模态大模型与直播结合的互动应用想法

Autodl故障引发的启发：算力平台应该如何发展？

AI在金融选股上回测解读

2024世界人工智能大会见闻，焦急等待应用，落地

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉