原理解析：17岁高中生「神级 Prompt，把 Claude 强化成满血 o1」

2024-11-15 11:30 广东

大聪明：

从原理上来说，输出 = LLM（上文）

这里，上文包括：预设提示词 + 用户指令 + Rag 内容 + AI 生成内容（包括CoT、反思、多伦对话产生的内容等）。涂津豪同学厉害的地方，是让更多人，感受到了上文优化带来的效果增幅，仅通过固定提示词（丰富版的 Let's think step by step）。

对于大模型，只要上文好，其出产也会好。提示词工程，正是基于这一原理，帮助提供足够的、精准的上文。须知：提示词工程，可以帮大模型更准确输出，但无法让其更聪明。

本文中，宝玉老师将带着大家探索一下，涂津豪同学的提示词，是如何构建的，以及更多原理，值得收藏

昨天一个热门话题是涂同学发的让 Claude 也能输出类似 o1 思考过程的 Prompt https://github.com/richards199999/Thinking-Claude ，有人称之为神级 Prompt，网友们体验后评论不一：有人认为确实很强，效果很好；有人认为效果一般。　

首先，涂同学作为高中生，写出这么高质量的 Prompt，是很值得肯定的，能充分发挥模型潜力，让 Claude 对于通用任务也使用思维链。　

然后这个 Prompt 不用拔高到“神级”这个高度，我个人比较赞同下面 Wen Yu 和 padphone 网友的看法：　

即使不用这个提示词，Claude 也能得出差不多的结论；若进一步追问，Claude 输出答案的深度甚至比使用那个提示词更强。　

提示词变长以后，更无法确认模型对提示词是全盘接受的；本质上注意力机制计算的结果和人主观意识要求模型接受的不一致。　

提示工程重要，但模型能力增强一定会降低提示词的复杂度。　

https://x.com/WenYu98767859/status/1856907303976661241 -- Wen Yu　

Claude 3.5 sonnet 本身不具备真正意义上的思考链条的。而这位高中同学提供的 prompt ,它的 thinking 与它最后提供的答案，都是同属一个答案的（一个完整的答案，用两种不同的方式划分了）。通过 prompt 实现表面上划分的思考和答案，实际上都是预先规划的一次性输出的。缺乏真正渐进性的思考的。实际上是在“表演思考”。它这个 prompt 的泛化能力有限的，会在一些编程或者一些系统化的任务中表现出息而已，利用分解问题以及多维度分析，实现结构化的引导，对于一些编程任务是有限，但是作用有限的。Prompt 是优秀的，也有它的局限所在，过度吹捧神化它，其实并不好。开源的作品，本质就是让大家一起探索研究，一起优化，而不是把它过度神话，去收割流量韭菜。这不是一种好的现象，也不利于这位优秀的 17 岁的孩子的心智成长 https://x.com/lepadphone/status/1857112426447270258 -- padphone　

最后我尝试用类比来解释一下这类 Prompt 和 o1 这类推理模型的区别，不是很严谨，不要当作理论知识看，只是帮助更好的理解其中差别，不对之处也请指正。　

先说个题外话，我们那一代学生，初中开始才学英语，学习的教材和方法也相对落后，主要靠背单词记语法，整体英语基础相对是比较差的，现在的孩子从小就开始学英语，听说读写一起练，长大了就都能说的很标准了。　

现在的大语言模型，就像是小学中学没好好学过数学的一批大学生，全靠死记硬背记答案混过了高考，记忆力超好，知识特别丰富，写出来的东西也漂亮，还善解人意。　

用人单位一开始还挺高兴，日常找找资料写写公文那是没得说，写程序都还不错，但用了一段时间发现这帮大学生数学和逻辑真的不行，也不愿意学习新知识，都这么大了也没法回炉重造了，负责带这些大学生的导师们只好死马当活马医，告诉学生们，数学推理这种问题，列出步骤就能改善很多（Let's think step by step）！　

好一点的导师甚至还会针对特定的问题耐心的列出步骤，这还真的管用，马上学生们推理水平上了一大截，甚至能解决稍微复杂一点的问题。但是遇到导师自己也不会的，或者懒得说的，学生们只好只有发挥，有时候还真蒙对了，有时候就是胡说八道，但解题过程有模有样，不懂的可能还真被忽悠了！　

然后有聪明人把自己平时解题和推理的思维过程总结出来了，比如要从几个不同角度去考虑、要去反思、要验证结果，然后让大学生们执行所有任务都按照这一套来。你还别说，对于有些任务还真的效果好一点，于是有人惊呼：神级 Prompt。　

但是如前面两位网友分析的，这种模仿别人思维过程的，可能只是在“表演思考”，他们的数学基础并没有本质提升，虽然在特定的一些任务会表现更好，但是并不代表真的可以改变自身数学基础不行的本质。　

那么 o1 模型呢，就像新一代的大学生，从小就开始题海战术，每天做大量的数学题和编程题，并且做的时候都要严格的列出步骤，做完了就去对答案，不对重新做！　

等这批大学生毕业，他们的数学推理能力已经变得很强了，遇到问题不需要导师们去引导怎么思考，而是会根据平时的训练，自行去推理，自行验证，遇到错误了能回退回去重新推演。当然对于一些已经有最佳实践步骤的问题，导师们给出步骤会结果更好。　

长江后浪推前浪，前浪死在沙滩上！　

http://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247493022&idx=1&sn=02b27306868fa573cd3f0c7466e5bcf4

赛博禅心

拜AI古佛，修赛博禅心

从百度 iRAG，看 AI 分野

我在公众号里，实现了一键特效

赛博精酿｜智能体专场：月底请大家喝一杯

招人｜中国信通院：大模型数据工程研究员

零代码：一键部署 3D 模型，守护最好的坤坤

腾讯开源：3D素材生成模型、最大 MoE 模型，兼容 OpenAI SDK 方式调用

我开发了一款排版器：20秒，完成公众号排版

OpenAI 在「问啥都行」上的一些回复

10月盘点：AI 行业大事记

我开发了一款新的 AI 搜索：批量搜

深度理解提示词：人人能学会，无需硬背

革命序章：Claude 3.5 新 API，可操作电脑

细说实现：大模型是如何被投毒的

“最强”小模型：Ministral 3B/8B 发布

175 份实战手册，来自 OpenAI

AI 模型战局渐定，下一波红利在哪？

特斯拉「We, Robot」发布会总结

拆解：智谱的「深度推理/多步搜索」

搞 AI 的，包揽诺贝尔物理、化学奖

独家信息：关于 o1 的 20 个真相

像用实习生一样用 AI 辅助你编程

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

扣子最佳实践：雅思口语专家

OpenAI 凌晨发布：Realtime 实时多模态 API，及其他

PIKA1.5正式上线，他们走上了另一条全新的"整活"之路。

AIPO：校园 AI 创投活动，开放报名！

9月：AI 圈的乌龙、趣事与新闻

智谱 API ：1折

OpenAI CTO 离职，Sora 前景不明

Llama-3.2 发布：多模态，禁欧洲

字节全新发布豆包AI视频模型 - 再见了Sora，你的时代过去了。

提示工程：反复崛起，反复被死亡

Claude Prompt：方法论

智谱开源：图生视频模型 & 视频标注模型

Qwen 2.5 开源，API 打一折

参加完 OpenAI 的活动，我看到了「草莓」的隐患

o1 能带我们走进 AGI 吗？

150 行代码，复刻「草莓」，青春版支持联网

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

原理解析：李继刚老师的「汉语新解」

iPhone 16 发布，全面解读「苹果2024发布会」

小红书式爆款文案正在剿杀语文。

拒绝谣言：OpenAI 没说新模型提价

插播：Qwen 404，但不必担心

最后一天：OpenAI 开发者日，将截止确认

近乎免费的 Gemini Flash，有了结构化输出

突发！Runway HF 已删库跑路

智谱 GLM-4-Plus 发布，独家附送免费 API，和我整的新活

OpenAI「草莓」今秋发布，随后是「猎户座」

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉