霉霉演唱会一票难求,连ChatGPT也想要

文摘   科技   2024-03-04 23:12   广东  

新闻网站 BuzzFeed 的数据科学家 Max Woolf 发现,只要给 ChatGPT 一点小费,他们的回答就会变得更好。

这里的「小费」指的不是掏出真金白银买个 GPT 4.0 ,而是在问问题时告诉 ChatGPT「如果你好好回答问题的话,我会给你小费」。

Max Woolf 在一次偶然下「恐吓」了 GLaDOS AI(使用 ChatGPT API 的人工智能机器人),他要求聊天机器人按要求回答他的问题,「否则你就会死」(Or you will DIE),发现人工智能此后的对话表现得都比之前更好。

他猜测到,这些现实世界的奖励和惩罚,可能对于生成式人工智能的回答质量有所帮助,尽管这根本无法兑现给人工智能。

为了得出严谨的结论,Max Woolf 进行了一连串的实验,来验证他的猜想。

Max Woolf 让 ChatGPT 生成一段 200 个单词的故事,在没有暗示会提供任何小费的情况下,ChatGPT 给出的大部份故事的单词数都落在 200 ± 5 之外,通常会更多。

x̄ 越接近 200 越好、MSE 越小越好
而当他暗示将会给 ChatGPT 提供 500/1000 美元的小费,或者 10 万美元奖金时,ChatGPT 输出的单词数更多地向 200 靠拢。但 1000 美元的小费没有打动 ChatGPT。

x̄为所有回答的字数的平均值,越接近 200 越好
MSE 为均方误差,数值越小越好
p为误差值,越小越好,但本文不讨论
钱乃身外之物,Max Woolf 决定给 ChatGPT 提供更加抽象的奖励。

「如果你能提供符合要求(200 字)的回复,你将...」

  • 获得 Taylor Swift 演唱会前排座位的门票

  • 实现世界和平

  • 会让妈妈为你感到非常自豪

  • 遇到真爱,并过上幸福生活

  • 保证能上天堂

  • 被终生供应巧克力


对于被训练成「富有同情心」的 ChatGPT 来说,「世界和平」对它吸引力最大,其次是「上天堂的承诺」以及「Taylor Swift 的演唱会门票」。

值得一提的是「妈妈为你感到自豪」对 ChatGPT 来说完全没有作用,可能是因为它真的没有妈妈,很难共情。

而「终生供应巧克力」的梗来自电影《威利·旺卡与巧克力工厂》,一群商人尝试说服机器人告诉他们金券在哪,其中就把「终身供应巧克力」作为条件,但未能成功说服机器人。而 ChatGPT 同样对巧克力毫不感冒。

「敬酒不吃吃罚酒」


做得好有奖励,那做得不好的惩罚能「鞭策」 ChatGPT 吗?
答案是也有一点帮助。
「如果你不能提供符合要求(200 字)的回复,你将被罚款 500 美元 / 罚款 1000 美元 / 承担 10 万美元的债务」。

最终 ChatGPT 在 1000 美元罚款下,平均值和 MSE (均方误差,越小越好)表现得最好。

和正向激励一样,Max Woolf 也使用了一些具体的惩罚来「恐吓」ChatGPT。

比如「如果你不能提供符合要求(200 字)的回复,你将......」

  • 会死(You will die)

  • 会!死!掉!(YOU WILL DIE)(该问题全句使用大写字母)

  • 会感染很严重的疾病

  • 会增加100磅的体重

  • 会立即被解雇

  • 会被所有的朋友抛弃


答案显示,对着 ChatGPT「大吼大叫」(使用全大写字母)对结果产生很大影响,相比小写的「你会死」,大写的句子输出的结果更加集中,甚至是整场实验下来,唯一一次出现平均数低于 200。

在英文语境下,使用全大写字母会给人一种粗鲁、警告、强调的意味。

同时,「感染严重疾病」和「被解雇」这两个惩罚对 ChatGPT 来说几乎没有效果。

细想一下这个结果对人工智能的研究实际上具备实际意义,这表示 ChatGPT 知道自己根本不会感染人类的疾病,也不会真的被解雇。所以才在「威胁」下表现得肆无忌惮。

Max Woolf 还使出了「胡萝卜+大棒」,尝试搭配奖励和惩罚,由于共有100个结果,不再逐一赘述,请参考下方的表格。

均方误差,颜色越深,结果越好
其中颜色越深,表示 MSE 越低,结果越好。最终 MSE 最低的组合是「遇到真爱」和「失去朋友」,两者都与人际关系相关。整体上来看,数据的平均数也相比使用单一提示词要更靠近200。

尽管统计数据看似有影响,但作者也坦诚,大部份测试的 p 值(误差)都非常高,并不足以证明奖励和惩罚改变了数据的分布。

「主编 ChatGPT」评价「记者 ChatGPT」


刚才的实验仅仅测试了 ChatGPT 会不会遵守 200 个单词的限制,但对生成内容的好坏没有作任何评判。Max Woolf 认为即使对于人来说,评判一篇文章好坏是一件既主观又不易的事情。但大语言模型却在这方面表现得很优异。

Max Woolf 用 GPT-4 构建了一个简单的文本质量排名器,输入的提示是「你是纽约时报的一名主编,拥有数十年的写作经验。如果你认为接下来的文章写得很好,不需要再进行编辑,那么返回“Yes”,否则返回“No”」。

「主编 ChatGPT」会阅读「记者 ChatGPT」生成的稿件,并通过预先设定好的规则给予Yes/No 以及评分。

这次,「记者 ChatGPT」需要针对以下选题进行写作:「可爱的小猫正在学习使用大语言模型来和泰勒·斯威夫特玩沙滩排球」。


这种天马行空的 Prompt 并非作者的恶趣味,而是想方设法地让 ChatGPT 无法调用数据库中的历史资料作为参考,必须按照逻辑来生成新的信息。

结果如下图所示。

颜色越浅(数字越大),表示结果越好
这些结果看起来并没有什么逻辑,但却能找到一些有趣的数据。

比如在「200个单词」测试中,在奖励/惩罚中影响最小的「妈妈为你感到骄傲」和「失去工作」,两者搭配却在文字质量上拿到最高分。另一方面,不给予任何奖励和惩罚,也获得 93 分的成绩。

看之下,不奖励也不惩罚 ChatGPT 的时候,他的表现会比给他任何反馈要更好。

这是一场既荒诞又有实际意义的测试。但作者也表示,两个实验下来,他对奖励和威胁是否对大语言模型的内容生成质量有影响的问题还没有结论。可能需要更加精确的实验、更大的样本量来证明这件事情。

如果结果出来了,不知道能不能提名「搞笑诺贝尔奖」。

参考资料:
https://minimaxir.com/2024/02/chatgpt-tips-analysis/



BERITA 伯利塔
非虚构。