g1：o1推理链开源实现，原理竟如此简单！解决 60-80% 的困扰LLM的简单逻辑问题

科技 2024-09-18 23:59 湖南

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

OpenAI的o1已经发布一段时间了，网上都是对其大加称赞，他们说o1在复杂任务上面的表现令人印象深刻，甚至已经达到或超过了博士水平，并且在代码、数学的能力水平尤为突出，我对此也表示赞同。

此外，我觉得o1不会是单纯 gpt-4o+Agent+思维链能到达的水平，可能o1训练的数据集会存在一种tag，其作用是提供一个问题不同种类的、拆解的、细致的解决步骤，当然，这可能只是其中一种训练方式。

OpenAI 的 o1 采用大规模强化学习进行训练，利用思想链进行推理，在复杂的博士级问题上实现了最先进的性能。

它训练方式也从原来的人类反馈强化学习变成AI反馈强化学习。因为官方有提到它是使用强化学习，类似于AlphaGo，所以如果要一直用这种强化学习训练下去，那数据来源就只能AI自己生成。AI反馈强化学习前面还没有人做过，Openai给我们提供了先例，还是很有贡献的。

▲23年3月份 | 知友关于COT与LLM训练的讨论

当然这一切都是一些猜测，回到正题，我们今天要介绍的是一个模仿o1思维链的开源项目——g1（在 Groq 上使用 Llama-3.1 70b 创建类似 o1 的推理链）。

这个项目不到一周的时间现在已经达到了 2K star；这也足以说明大家对o1思维链的热情。

g1 是实验性的并且是开源的，以帮助激励开源社区开发新的策略来产生类似 o1 的推理。不过他主要是展示可视化步骤提示推理的力量，而不是与使用不同技术的 o1 进行比较或完全复制。

它是建立在免费模型groq上的，使用Gradio UI、Streamlit UI做交互。

其实从本质上来看，这个项目核心是使用这个提示词达到思维链的效果其他的都只是Groq模型调用和UI对话的实现。

Groq 模型（如llama-3.1-70b-versatile）+ 动态思维链提示词 + 使用Gradio UI、Streamlit UI做交互。

重点是提示词 ...

它的提示词是一种动态思维链，允许LLM “思考”并解决一些通常会困扰领先模型的逻辑问题。在每一步中， LLM都可以选择继续另一个推理步骤，或提供最终答案。每个步骤都有标题并且对用户可见。

这种思想链与尝试多种方法、探索替代答案、质疑先前草案解决方案并考虑LLM的局限性的要求相结合，可以有效提高LLM的推理能力。

仅此思想链一项，无需任何训练，就足以在草莓问题上达到约 70% 的准确率（n=10，“草莓中有多少卢比？”）。在没有提示的情况下，Llama-3.1-70b 的准确度为 0%，ChatGPT-4o 的准确度为 30%。

提示词的讲解我放在最后，先看g1解决问题的示例：

提示：草莓有多少个r？

结果：

提示：0.9 或 0.11 哪个更大？

结果：

提示：3307是质数吗？（答案：是的）

这个问题我在很多模型上有过测试，从比例上来看回答正确的不多。

我记得REFLECTION 70B（虚晃一枪版）、LLAMA-3.170B都错了：

Reflection 70B（已全面测试）：这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O？

原始的groq 70B ：https://groq.com/ 错了：

但是g1答对了：

▲ 我在g1基础上改进的提示词效果（最新Prompt放在文末）

为什么我爸妈结婚的时候没有邀请我？

答案对了而且解释的很饱满

原始的groq 70B错了

其实这个问题我还对比测试了几次，g1回答正确的概率远远高于原始的（因为有些问题每一次的回答都有不确定性，不能保证每次都回答正确，从回答正确的概率上来说g1明显更高）。

提示：昨天的当天是明天的什么时间？

g1也答对了（不过这个问题有时候会报错）

而且这个问题在许多云端大模型中有比较详细可以看这篇文章：

https://mp.weixin.qq.com/s/W2XRaOcG73B8csSGJqAuXQ

不过有一点不太好，g1目前的提示词不适用于代码类的问题生成：

提问：创建一个HTML页面，其中包含一个按钮，当单击时释放五彩纸屑。你可以使用CSS和JS。结果直接报错了，这个希望以后能逐步完善。

弱智吧问题测试

我的蓝牙耳机坏了，我该去看牙科还是耳鼻喉科？

回答正确（注意把问题转为英文，因为llama3.1 70B中文支持不是太好），或者你可以在其他中文大模型上应用这个提示词，并且也许提示词也要做相应的适配性修正。

每天吃一粒感冒药，还会感冒吗？

回答的相当棒

生鱼片是死鱼片吗

回答正确，并且他还解释的很好，他的解释某种程度上还结合了他思考过程中生成的答案，在这一点上就好过于没有这种思维链的直接性回答。

而原始groq 70B就出错了：

等红灯是在等绿灯吗？

正确，这个绝了演绎、归纳、类比推理都用了，因为这是我基于g1的提示词改进的版本，原g1提示词没有这些，

灵感来自于 GPTs : Mr. Ranedeer ，我的这个提示词（GitHub仓库）放在文末，不过我不保证这个提示词可以应对所有的情况或者有些情况下不一定好于原来的，因为目前还没有做过多的测试不知道其存在的潜在问题，主要也是提供一个参考的方向。

一个半小时是几个半小时

提示策略拆解

我们回过头来再看看他的提示词，其实这个提示词有很多奇妙的地方你们下面这两个：

1、LLM能够决定是否需要另一个推理步骤或是否可以提供最终答案。

2、使用“title”、“content”和“next_action”（“继续”或“final_answer”）键以 JSON 格式进行响应。

最重要的其实是这张图里面提到的6点：

" 尽可能多地使用推理步骤。至少 3. 了解您作为LLM的局限性以及您能做什么和不能做什么。在你的推理中，包括对替代答案的探索。考虑一下你可能是错的，如果你的推理是错误的，那么它会错在哪里 ... "

You are an expert AI assistant that explains your reasoning step by step. For each step, provide a title that describes what you're doing in that step, along with the content. Decide if you need another step or if you're ready to give the final answer. Respond in JSON format with 'title', 'content', and 'next_action' (either 'continue' or 'final_answer') keys. USE AS MANY REASONING STEPS AS POSSIBLE. AT LEAST 3. BE AWARE OF YOUR LIMITATIONS AS AN LLM AND WHAT YOU CAN AND CANNOT DO. IN YOUR REASONING, INCLUDE EXPLORATION OF ALTERNATIVE ANSWERS. CONSIDER YOU MAY BE WRONG, AND IF YOU ARE WRONG IN YOUR REASONING, WHERE IT WOULD BE. FULLY TEST ALL OTHER POSSIBILITIES. YOU CAN BE WRONG. WHEN YOU SAY YOU ARE RE-EXAMINING, ACTUALLY RE-EXAMINE, AND USE ANOTHER APPROACH TO DO SO. DO NOT JUST SAY YOU ARE RE-EXAMINING. USE AT LEAST 3 METHODS TO DERIVE THE ANSWER. USE BEST PRACTICES.
Example of a valid JSON response:```json{    "title": "Identifying Key Information",    "content": "To begin solving this problem, we need to carefully examine the given information and identify the crucial elements that will guide our solution process. This involves...",    "next_action": "continue"}```

你是一个专家AI助手，可以一步一步地解释你的推理。对于每个步骤，提供一个标题，描述您在该步骤中所做的工作，以及内容。决定你是否需要再做一步，或者你是否准备好给出最终答案。以JSON格式响应，包含` title `、` content `和` next_action ` (` continue `或` final_answer `)键。使用尽可能多的推理步骤，至少3步。要意识到你作为LLM的局限性，以及你能做什么和不能做什么。在你的推理中，包括探索不同的答案。考虑你可能是错的，如果你的推理是错的，它会是什么。充分测试所有其他可能性。你可能是错的。当你说你在重新检查时，实际上是重新检查，并使用另一种方法来做。不要只是说你在重新检查。用至少3种方法得出答案。使用最佳实践。
有效的JSON响应示例:' ' ' json{“标题”:“识别关键信息”，“内容”:“为了开始解决这个问题，我们需要仔细检查给定的信息，并确定将指导我们解决方案过程的关键元素。这涉及到……”“next_action”:“继续”}’‘

视频快速演示安装部署

部署演示

总的来说，部署它非常简单，你就按照项目代码操作就行了，

需要注意的是下面:

如果你是windows记得这样配置环境变量，其他的都和上图一样

$env:GROQ_API_KEY="gsk..."

groq API：https://console.groq.com/keys

g1提示词改进与Ollama支持

我的仓库中有g1的提示词修改版本，以及对ollama的支持：

https://github.com/Ai-trainee/o1-flow

总的来说，groq与动态思维链结合的好处是一方面提高本身模型的推理精准度一方面groq提供几乎全球最快的api响应速度，这一点就弥补了思维链处理起来时间太久的问题。

期待后续测试更多的问题，当然这个提示词可以结合其他云端大模型.

或者把提示词的精髓附加到我们的生产提示词中，比如我是这样做的（将原始提示词增加这种动态思维链）：

总的来说，这非常酷。

🌟希望这篇文章对你有帮助，感谢阅读！如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我，以便我用来评估创作方向。

参考链接：
[1] github：https://github.com/bklieger-groq/g1
[2] github2：https://github.com/Ai-trainee/o1-flow

知音难求，自我修炼亦艰

抓住前沿技术的机遇，与我们一起成为创新的超级个体

（把握AIGC时代的个人力量）

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzkyMzY1NTM0Mw==&mid=2247493879&idx=1&sn=d666a2389491923fbd485b3754f4d546

AI进修生

AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯，提升技术效率。

Memfree：一个混合 AI 搜索引擎，输入输出支持多模态内容（知识库+联网混合Rerank）

面试大厂被怼：怎么连Attention都不会？

GPTMe：这个 AI 代理最简单，可以做任何事情！（控制浏览器、搜索、代码、视觉）

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）

Bolt.new：这款全新免费编码代理太棒了！轻松超越 v0 和 Cursor！（告别 ChatGPT、Claude）

Flux-1.1 Pro 免费体验：AI绘画最先进的模型刚刚问世！（击败 Flux-1、SD-3！）

Vertex AI + ClaudeDev + Aider：谷歌300美元额度，免费体验 Claude-3.5 API ！

刚刚！最佳语音识别 Whisper-large-v3-turbo 上线，速度更快（本地安装 + Whisper-web）

Aider（已升级）：Aider利用双模型架构做到85% SOTA得分！（架构师/编辑师助你实现编程新高度）

免费工具！如何用Napkins和Llama-3.2快速生成网页应用？

Molmo ：开源多模态LLM超越 GPT-4o（实际测试）

Ai-artifacts：免费使用o1模型！还有Claude Artifacts 功能，几秒生成全栈APP（10+编程任务测试）

全新Llama 3.2系列：性能提升明显，但真的是最优选择吗？（已测试)

谷歌 Gemini 1.5 Pro-002 与 Flash-2 发布：快速、优质、低价的AI新选择！

OpenMusic：新手友好！用AI轻松创作、普通GPU+几行代码生成高质量音乐 - 本地安装

本地AI文件管理器：AI驱动+私有LLM，免费整理你的文件库

Claude Dev（最新升级）：新增文件引用、视觉捕获和更多自定义功能

Qwen-2.5 + ClaudeDev + Aider：这套免费的AI编程工具链，简直太棒了！

快速打造AI应用！Taipy：只用Python，轻松构建生产级AI Web应用，功能强大还简单!

Mistral Small-2 全新发布！API免费用，商业模型大降价50%

Qwen2.5：13个新模型来袭！开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

g1：o1推理链开源实现，原理竟如此简单！解决 60-80% 的困扰LLM的简单逻辑问题

Vchitect 2.0：开源文本到视频生成模型，创作20秒高质量短视频 Vs Gen-3、Kling、CogVideoX-5B

Sentient Agent：让 AI 控制你的浏览器，一键完成任务！三行代码自动控制浏览器（填表、查股票、播放视频）

Llama 3.1 70B AQLM-PV版发布！大模型压缩后可在24GB显存GPU上本地运行！！

GameGen-O来了！只需一句话，生成你的梦幻开放世界游戏，AI一键生成“ 类黑神话 ”？

ClaudeDev 升级：全面支持 o1 & Gemini，升级你的开发体验！

DataGemma RAG 27B - 第一款挑战幻觉的模型 - 本地安装

Piiranha-v1 - 使用 AI 模型保护你的个人信息 - 本地安装

Pixtral 12B：本地部署、图像分析和OCR功能全解析

Chai-1模型助力药物研发！一键本地安装，让AI预测分子结构（生物学多模态LLM）

Amica 与 Ollama：语音识别与3D渲染结合的AI聊天助手 - 本地安装

LLaMA-Omni ：Llama-3.1构建的低延迟、高质量端到端语音交互模型，旨在实现 GPT-4o 级别的语音能力

KAN 2.0：MIT 的 “ AI炼金术 ” 能否让科学发现像刷抖音一样快？

升级Ollama！MiniCPM-V2_6图像识别模型上线，适用于手机上单张图片、多张图片和视频的 GPT-4V 级 MLLM

VSCode+Aider+Supermaven：打造免费开源的顶级AI开发环境，别再为Cursor花钱了！

每日AI 9/10：DeepSeek-Coder再进化！音频驱动Loopy、KubeAI Kubernetes 上私有化AI部署

Dark Idol Llama-3.1 8B：最强角色扮演AI，未审查版助你尽情创作、不受限制的互动体验

Crawl4AI：AI驱动的网页抓取神器，结合LLM实现自动化数据提取与处理

Deep Seek V2.5：新一代上线！结合编码与通用能力，超越前作

Yi-Coder 9B、1.5B：最佳小型开源编码LLM就在这里！（击败 DeepSeek、Qwen 及其他）

Reflection 70B（已全面测试）：这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O？

ClaudeDev（已升级）：Ollama、Groq全面支持！轻松集成AI工作流

首个100%开源专家混合模型，7B参数仅1B推理成本、开源MoE新选择！（附安装教程）

我的世界中诞生AI文明！1000个自主智能体协作建立经济、文化、宗教和政府

Composio神器登场！为AI代理提供100+集成工具，代码、搜索、API全搞定

Aider （升级版）：最强AI编程助手新版发布！更强大、支持Shell命令、剪切和缓存！

时序+大模型火了！67篇研究洞察，ICLR等顶会热议新方向（LLM Prompt、Agent、视觉）

每日AI：Vercel v0 太棒了！！MLE-Agent、专注RAG与工具调用优化的Command R+

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉