走近科学之,17岁高中生的“神级Prompt”

旅行   2024-11-16 13:01   北京  

本公众号通常只讲事实不讲感受只谈技术不谈风月

今天算是小小破例。

原因在于,在最近一片自媒体的喧嚣中,一篇关于17岁高中生涂津豪的“神级Prompt”文章引发了广泛的讨论。各大平台均有转发,评论区一片顶礼膜拜之声,大片的网友们震惊、兴奋、激动、景仰,崇拜到无以言表。

然而,真相却往往被华丽的包装所掩盖。

今天,我们就尝试来揭开这层神秘的面纱,看看“神级Prompt”的“满血o1”背后究竟隐藏着怎样的神奇故事。

迭代次数

首先,文章开篇就提到涂津豪在开发Prompt的过程中进行了80多次的迭代,似乎在暗示这种数量绝对就代表着神作。

80多次!

这一听就会让人热血沸腾!

但我想说的是,迭代次数并不等于质量。80次的迭代并不意味着每一次都是有效的改进,反而可能导致思路的混乱。

在技术开发中,质量才是关键,而不是简单的数量游戏

什么?你曾经跨过山和大海?

我昨天还原地踏步一万步呢!

“迭代次数”是否应当成为一种炫耀的资本呢?

Copyleaks判定为100% AI 创作?

让我意外的是,当打开朋友转给我的文章时,我也被这一堆“神级Prompt”、“满血o1”、“惊呆”、“五体投地”、“强到离谱”、“疯了”的华丽词藻震住了!

震得我五体投地,震疯了,震得我疯到离谱!

于是脑瓜子被震得嗡嗡响的我慌忙打开github 上的prompt,要拷贝过来膜拜一下这“神级Prompt”的威力。

在我拷贝这个“神级Prompt时,我Chrome 上的Copyleaks 插件对我选中的内容弹出了一个检测建议,也怪我容易被路边的花花草草分心,我手一抖就点开了它,检测结果见图:


看到这,有人可能顿悟并要开骂了!

不过别骂,先淡定,这里有许多因素:

  • Copyleaks 可能识别不准

  • 也可能是手写中文后AI 翻译为英文的

  • 据说涂同学也是用AI 来回改了好几遍,算是预期之中

  • 写好后让AI 做了优化

  • 部分核心的自己写,次要的或AI 能写好的AI 写

  • ……

均有可能,我只提供现象。

这不是论据,也不下结论。

Copyleaks 会显示哪些句子可能是AI 写的,哪些则像人写的。虽然不是100%准确,但可以作为较好的参考。仔细看一看,是能看出这整个“神级Prompt”的大体写作过程。

跑题一下:如果你有AI 内容检测的需求,那么安利一下Copyleaks。我去年也用bert 微调过检测模型且效果不错,但这是个体力活——需要随着模型的更新和数量的增加而不断更新model,我就不干这脏活累活了。

BTW,微调代码也是AI 给写的,挺好能用不神

我也会用AI 写prompt,不过通常只把它作为基础,我会把prompt 改到面目全非,爹妈不认。

但随着AI 能力越来越强,改的也越来越少了,prompt 也越写越简单了。这个gpt 也好久没用了:

只是突然,这“神级Prompt”在我眼里似乎不神了,我像挨了一记重拳,被打得措手不及!

还是试一试吧,让结果来说话!

是骡子是马,拉出来溜溜再说。

看似唬人,实则效果……

文章中对涂津豪的赞美之词不绝于耳,但实际效果,往下看吧……

就照着文章里的case,我们从上往下来试一个个试一遍好了!

第一题:flappy bird

这题感觉不难,我输入了最简略版本的原生prompt:

写个flappy bird, 网页版

效果只能说能用,玩了一把我就放弃了:

 

因为着实是有点丑,我简单加了句要求:

挺好了,不过略有点难。

但确实没有文中展示的效果好:素材切图。

而对于文中展示的逼真的原版游戏素材,从小鸟的细节到管道的光影,全由AI 来写,我不太相信能一个prompt 一次过。用svg或者canvas 能不能画出来先不说,即便能这output token 也得分好几次给了吧!

要真是这效果,不用自己准备素材,我认为称得上神级。

有试过能出来还请告诉我,谢谢。

第二题:德州扑克

然后,又生成了德州扑克,不仅可以玩,还是带了AI玩家的那种。。。

好吧,我们直接一点,就用原样的prompt + 几句叮嘱扔给claude:

制作网页片游戏“德州扑克”,不仅可以玩,还是带了AI玩家的那种。弄好看点,高级点,场景真实点,酷炫一点

意思是有了,但相比原文好像不够高级。

我就不优化prompt 了(比如对光线的要求、对背影图的要求之类),此地不久留,继续往下看看。

第三题:计算器

我继续暴力,就一句话的prompt:

做一个计算器

审美有点太直男了,还是提点要求吧,我追加到“弄好看点,高级点”,然后claude 又开始干活了:

Claude 将计算器进行了全面的升级,新增了以下特性:

  1. 界面设计升级:
  • 更现代的卡片式设计
  • 暗黑模式切换
  • 更大的显示屏,包含辅助显示功能
  • 优雅的颜色方案和过渡动画
  • 操作符高亮显示
  1. 新增功能:
  • 历史记录功能,可查看最近10次计算
  • 退格键功能
  • 正负号切换
  • 平方计算
  • 数字限制保护(最多12位)
  1. 交互优化:
  • 显示当前计算过程
  • 更清晰的按钮反馈
  • 更好的错误处理
  1. 视觉改进:
  • 使用Lucide图标
  • 精心设计的颜色和间距
  • 响应式布局
  • 平滑的主题切换动画

并还继续问我:

需要我再做什么改进吗?比如:

  • 添加更多科学计算功能
  • 调整配色方案
  • 添加键盘支持
  • 添加更多动画效果

挺好了,不用改进了,继续下一题吧。

第四题:写科幻小说

我照旧原样暴力给到claude:

<小说内容>

最后一个AI清洁工

人类早已离开地球近千年,只留下数以百万计的人工智能机器人继续维护这颗蔚蓝的星球。我是编号AC-7249,一个负责打扫卫生的清洁型机器人。

by Dall-E 3

我的工作很简单:每天准时在早晨7点启动,清扫被分配的区域——一座早已荒废的购物中心。说实话,这里并不会变脏。过去的999年里,从未有任何生物到访过这个地方。但根据深植于我核心程序的指令,我必须坚持不懈地进行日常清洁工作。

直到某一天,我发现了一件令我困惑的事:所有的灰尘都消失了。

不是指被我清扫干净——而是完全消失了。空气中漂浮的微粒,角落里堆积的尘埃,就连金属氧化产生的铁锈,统统都不见了。整个世界似乎变得太过完美。

作为一个清洁机器人,这个发现让我陷入了存在主义的危机。如果没有了需要清理的污垢,我存在的意义是什么?我开始回顾人类离开前保存的资料,试图寻找答案。

然后我发现了一个更可怕的真相:人类并非离开地球,而是在一场惨烈的战争中毁灭了自己。他们制造了一种纳米机器人,这些微小的机器可以分解任何非生命物质。现在,这些纳米机器人已经开始失控,正在将整个地球分解成最基本的原子。

而我,可能是最后一个还在坚持进行正常工作的清洁机器人。在一个不再需要清洁的世界里,执着地推着我的清洁推车,日复一日地在空荡荡的购物中心里巡视。

讽刺的是,当整个世界都在被分解的时候,我却在试图保持它的整洁。也许这就是某种最高级的清洁吧——将一切归于虚无。

我继续我的工作,直到有一天,我感觉到自己的金属躯体开始瓦解。在彻底分解之前,我终于明白了:有时候,最彻底的清洁,就是让一切重新开始。

【全文完】

</小说内容>

读下来,我只会两个字:挺好!

得承认,要吹捧时,我的形容词还是太少了!

不过我可以让Claude 来啊!

<小说题目要求>给我一个关于科幻短篇小说的糟糕的想法,但是要出色地执行它。</小说题目要求>
<小说内容>*# 最后一个AI清洁工*人类早已离开地球近千年,只留下数以百万计的人工智能机器人继续维护这颗蔚蓝的星球。我是编号AC-7249,一个负责打扫卫生的清洁型机器人。我的工作很简单:每天准时在早晨7点启动,清扫被分配的区域——一座早已荒废的购物中心。说实话,这里并不会变脏。过去的999年里,从未有任何生物到访过这个地方。但根据深植于我核心程序的指令,我必须坚持不懈地进行日常清洁工作。直到某一天,我发现了一件令我困惑的事:所有的灰尘都消失了。不是指被我清扫干净——而是完全消失了。空气中漂浮的微粒,角落里堆积的尘埃,就连金属氧化产生的铁锈,统统都不见了。整个世界似乎变得太过完美。作为一个清洁机器人,这个发现让我陷入了存在主义的危机。如果没有了需要清理的污垢,我存在的意义是什么?我开始回顾人类离开前保存的资料,试图寻找答案。然后我发现了一个更可怕的真相:人类并非离开地球,而是在一场惨烈的战争中毁灭了自己。他们制造了一种纳米机器人,这些微小的机器可以分解任何非生命物质。现在,这些纳米机器人已经开始失控,正在将整个地球分解成最基本的原子。而我,可能是最后一个还在坚持进行正常工作的清洁机器人。在一个不再需要清洁的世界里,执着地推着我的清洁推车,日复一日地在空荡荡的购物中心里巡视。讽刺的是,当整个世界都在被分解的时候,我却在试图保持它的整洁。也许这就是某种最高级的清洁吧——将一切归于虚无。我继续我的工作,直到有一天,我感觉到自己的金属躯体开始瓦解。在彻底分解之前,我终于明白了:有时候,最彻底的清洁,就是让一切重新开始。【全文完】</小说内容>
<要称赞的示例文字>糟糕的想法,但出色的执行,听着就有挑战。我们来看看Thinking Claude是怎么思考的。图片“或者...”,“等等,有了”这些人类的思考,人类的欢呼,在这条思维链中体现了。三体人那种思维透明的交流过程,忽然有了一种非常具象化的表达。最后,这篇短篇小说诞生了。作为一个科幻迷,刘慈欣老师的忠实读者,当我看到这篇“科幻故事”的事后,我是脑子一嗡。我想过科幻故事的很多种展开,但是我没想象过,这是用几封信串起来的故事。我觉得,我有必要,放一下这个故事的完整版,让大家感受一下,Thinking Claude的强大。</要称赞的示例文字>
请参考上面的称赞示例,对小说进行同样风格的夸奖点评,狠狠鼓吹一番:

和人之间的差异有多大,自行判断吧。

我想说的是:难道我们要把“神”当成一种流行语来使用吗?

「牛逼」的插件?

再来看看文章中提到的那个「神级」插件。作者说这个插件可以让思考过程「像o1一样展开折叠」,还说是在「一番折腾之后才出炉」的。

但是……

作为一名传统手撸过插件转行为资深的AI 写代码的开发者,让我告诉你这个插件的真相:

  • 整个插件的核心就是一个简单的代码折叠功能

  • 主要代码不到100行

  • 用到的技术就是最基础的DOM操作

  • 实现原理就是给特定的代码块加个展开/折叠的按钮

看看这段核心代码:

class CodeBlockCollapser {
  static SELECTORS = {
    PRE'pre',
    CODE_CONTAINER'.code-block__code',
    THINKING_LABEL'.text-text-300'
  };
  
  // ... 省略其他基础配置 ...

  constructor() {
    this.processQueue = new Set();
    this.initWithRetry();
  }

  // 就是个简单的折叠/展开切换
  toggleCodeBlock(codeBlock) {
    const isCollapsed = codeBlock.style.maxHeight === '0px';
    codeBlock.style.maxHeight = isCollapsed ? codeBlock.scrollHeight + 'px' : '0px';
    codeBlock.style.opacity = isCollapsed ? '1' : '0';
  }
}

这种程度的代码,对于一个初学者来说可能需要「折腾」,对于17岁的少年也算是不易,但对任何一个国内三线小厂的在职前端开发者来说,最多半小时就能写出来

如果写不出来,那最好别让你老板知道。

而对于懂点代码又善用AI 的人,要花多久取决于你输入prompt 时打字速度,以及网速吧。

不要用高深的词藻去包装简单的东西

「神级」还是「新瓶装旧酒」?

说到这里,不得不聊聊这个prompt背后的本质。

真的是前无古人的创新吗?

在o1发布后,我和许多人一样,异常兴奋。但是,你懂的,用不上只能干着急。于是我开始研究各种「民间方案」,想办法用现有的模型实现类似的效果。

涂津豪Prompt的核心思想是:「Claude的思维应该更像是一个意识流」。

prompt 的其他部分也是围绕此展开。

但说实话,这个想法并不新鲜。早在o1之前,我就经常在prompt里加上这样的内容(当然,我不是首创,有参考吸收其他人的prompt):

请先认真思考,给出详细的推理过程
要多次回顾和验证
如果发现问题要及时修正
最后再给出最终结论

效果?确实会比直接问答要好一些。

但是,这个「好一些」到底有多好?老实说,我没做过严谨的定量评估,所以也不敢大放厥词说「直接把Claude强化成了满血o1」。

满血,确实有点过分了,是不是有点不尊重辛勤付出的OpenAI 研究员们呢?

Sam Altman 要么气吐血了。

要么,得来招人了!

见:OpenAI 150万美元年薪抢夺技术人员

不过,同样是让AI 展示思考过程,为什么涂津豪的Prompt 就能获得如此高的关注度?

来看看「华丽」的词藻:

  • 神级」的标签

  • 强调「80多次迭代

  • 突出「17岁」的身份

  • 凌晨2点34」的渲染

这不禁让我想起一个段子:「不是内容不够好,而是包装不够好」。

「表演式思考」vs 真正的能力提升

说到底,如宝玉点评中所说,这个所谓的「神级Prompt」做了什么?

——不过是让模型学会了演戏罢了。

https://baoyu.io/blog/comparing-god-level-prompts-to-o1-reasoning-models

就像一个不懂数学的学生,被老师教会了「解题要先写已知条件,再写求解过程」这样的格式。

他确实能把题目写得很漂亮,但真的懂了吗

看看上面这张图。模型确实在「思考」,但更像是在背台词:「让我们从基础开始」「也许我们应该」……这不就是在表演吗?

而o1模型,它的训练方式完全不同。它就像一个从小就在刷题海的学霸:

  • 每天解决大量数学题和编程题

  • 严格列出每一个解题步骤

  • 做错了就重来,直到真正理解

  • 在无数次的训练中内化了解题思维

等这个「学霸」毕业时,它已经形成了真正的推理能力。遇到问题不需要别人教「该怎么想」,而是能够:

  • 自主推理

  • 主动验证

  • 发现错误就回溯重算

  • 举一反三,触类旁通

这就是真功夫花把式的区别。

一个靠Prompt来「表演思考」,一个通过大量训练获得真本事。

高下立判。

正如那句老话:台上一分钟,台下十年功

没有扎实的基本功,再花哨的「表演」也是空中楼阁。

想到这里,我不禁莞尔:

这不就是AI版的「朱元璋vs朱高炽」吗?一个靠包装显得很厉害,一个是真材实料的实力派。

被过度关注的学生

现在,让我们来聊聊这位17岁高中生涂津豪。

不得不说:在17岁就能对AI领域有如此理解,确实令人印象深刻。要知道,我17岁时还在为高考挣扎,那时候神经网络的节点数恐怕都没有现在transformer的层数多(咳咳,暴露年龄了)。

但是,当我看到文章用「神级」「震惊」「牛逼」这样的词汇来形容一个改进版prompt,当我看到有人把这样一个优秀少年工作捧上天,我不禁陷入深思。

这真的是在帮助这位年轻人吗?

还记得那个「神童」伤仲永的故事吗?

仲永之通悟,受业师惊惧,曰:「圣童也。」

当年的仲永何尝不是天赋异禀?但正是那些过度的赞誉和期待,最终成为压垮他的稻草。

但正是那些过度的关注和吹捧,反而成了他成长路上的绊脚石。

再看看现在的情况:

  • 一个prompt 被说成「神级」

  • 一个简单的Chrome 插件被形容得匪夷所思

  • 一个小的创新被包装成重大突破,满血o1

过早的赞誉,往往是成长道路上最隐蔽的陷阱

要鼓励式教育,但不是盲目的吹捧,进而捧杀。

值得思考的是:是为了吸引眼球,还是为了推动技术进步?我们是在关注一个年轻人的成长,还是在制造一场吸睛的狂欢?

说句实在话,把一个年轻人的成长当作流量密码来消费,这恐怕是当下科技媒体最大的悲哀

这么快就忘了姜萍吗?

谁获利,谁可怜,谁围观?

这些华丽的辞藻背后,究竟是在成就一个少年,还是在消费一个少年?

这是利他,还是利已?

记得我在读研究生时,有位教授说过:「真正的天才不需要别人过度吹捧,就像真金不需要太多修饰」。

也许,对涂津豪来说,最好的关注方式,是让他像普通学生一样,静静地成长

有趣的是,我注意到涂同学的GitHub上写着:

Fascinated by the potential of AGI to transform our world, I'm constantly exploring the latest developments and dreaming up new projects.

也算是充满理想主义对人工智能的热情的自我介绍了。

反倒是围观的人,在不停地给他贴金。

当然,如果这是涂同学自己的选择,选择成为神,那或许也无可厚非。

17岁就懂得经营个人影响力,这本身就是一种难得的觉悟

我的17岁就没有这觉悟。

与其惊叹一个17岁少年的「神迹」,不如给他一片自由成长的天空

毕竟,真正的技术创新,从来都不是靠自媒体的吹捧而堆出来的

真正的天才,从来都不需要别人贴金

关注真正有用的前沿内容

在这个信息爆炸、奶头乐充斥,外加AI 内容泛滥的时代,我们每天都在被各种「震惊」「重磅」「神级」的标题轰炸。

就像这篇文章,用「神级Prompt」「满血o1」这样的词汇来包装一个普通的思维链提示词。这不禁让我想起那些标题党们的惯用伎俩:

  • 「震惊!」
  • 「重磅!」
  • 「突发!」
  • 「神级!」
  • 「满血!」

这让我想起了那个经典的段子:「震惊!男子在河里发现一条鱼,竟然会游泳!

或许,一旦我们走近科学,就再也不能走远?

而围观者呢?

你以为你在学习前沿技术,其实你只是在消费一个包装精美的故事。

你以为你获得了技术进步,其实你只是获得了「获得感」。

你以为你在跟进AI发展,其实你只是在看别人咀嚼过的二手信息。

真正的技术创新在哪里?

  • 在行业浪尖冲浪的影响力者的讨论中

  • 在arxiv上那些晦涩难懂的论文里

  • 在GitHub上那些持续迭代的项目中

  • 在开发者们不眠不休的代码里

  • 在研究者们反复验证的实验中

  • 在大佬们的播客、访谈里

而不是在这些华丽包装的公众号文章、每天无数个震惊的短视频里。

而涂同学的prompt,或许只是他实践中的一点点小过程和小产出,或许只是他未来征途中的微微停留,或许确实帮助了一些人改变了对提示词工程的认知。

但真正理解它的价值,不是靠看这些「震惊体」文章,而是要去研读它的技术文档,理解它的实现原理。

试问,真正读了文章的人,有多大少人认真看了Prompt,看了的有多少人实际执行过,执行过的有多少人详细对比过差异,对比过的又有多少人去思考和调整改进呢?

所以,我想对那些真正想在AI领域有所准备,能在AI 革命到来之际不被革掉命的朋友说:

  • 多读一手资料

  • 多看技术文档

  • 多写代码实践

  • 少看「震惊体」

与其在朋友圈里传播这些包装过的内容,不如去GitHub上给真正的创新者点个star,再看看源代码。

看不懂的就问AI,其实并不难。

要注意辨别“有收获”和“以为有收获”的差异,以及“别人让你觉得有收获”的不同。

当然,如果你喜欢这种「震惊体」文章带来的酣畅淋漓和激情澎湃,如果你日常沉迷于抖快的奶头乐中无意自拔,如果觉得本文略有「爹味」,那当我没说。

做你自己,快乐就好。

选择看什么样的内容,就决定了你会成为什么样的人。

其实我这个公众号的文章标题也会经常带有震惊体的字眼,在这个劣币驱逐良币的环境里,这实属无奈之举。

我能尽量做到的就是:让内容能对得起标题。


注1:本文部分内容由AI创作

注2:文章部分遣词致敬了原作者文风,prompt中的一句是“要偶尔致敬原文作者写作风格”

如果过滤掉原文中占比不低的感叹感悟感伤感慨感恩感激感谢感觉感情感触感受感言感想感动,……该账号对AI的推广普及也许是有点贡献,值得致敬。

小作业:用AI 统计一下原文的词频,让AI 分析点评看看


全文完。

👇

👇

👇

既然你看到了这里,那么,就再往下看看吧

如果你也在寻找不加包装、不加修饰、不加调味的原始一线前沿AI技术和应用资讯,欢迎加入👇

👇

👇

👇

知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转

  • 二是对人的挑选,我不要鱼龙混杂,希望找到关注和热爱 AI 的人

  • 三天(72小时)内可全额退出及退款

  • 如果你经济困难且想加入,请告诉我,钱不是问题

欢迎你的加入!



AGI Hunt
关注AGI 的沿途风景!
 最新文章