首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

霉霉演唱会一票难求，连ChatGPT也想要

文摘科技 2024-03-04 23:12 广东

新闻网站 BuzzFeed 的数据科学家 Max Woolf 发现，只要给 ChatGPT 一点小费，他们的回答就会变得更好。

这里的「小费」指的不是掏出真金白银买个 GPT 4.0 ，而是在问问题时告诉 ChatGPT「如果你好好回答问题的话，我会给你小费」。

Max Woolf 在一次偶然下「恐吓」了 GLaDOS AI（使用 ChatGPT API 的人工智能机器人），他要求聊天机器人按要求回答他的问题，「否则你就会死」（Or you will DIE），发现人工智能此后的对话表现得都比之前更好。

他猜测到，这些现实世界的奖励和惩罚，可能对于生成式人工智能的回答质量有所帮助，尽管这根本无法兑现给人工智能。

为了得出严谨的结论，Max Woolf 进行了一连串的实验，来验证他的猜想。

Max Woolf 让 ChatGPT 生成一段 200 个单词的故事，在没有暗示会提供任何小费的情况下，ChatGPT 给出的大部份故事的单词数都落在 200 ± 5 之外，通常会更多。

x̄ 越接近 200 越好、MSE 越小越好

而当他暗示将会给 ChatGPT 提供 500/1000 美元的小费，或者 10 万美元奖金时，ChatGPT 输出的单词数更多地向 200 靠拢。但 1000 美元的小费没有打动 ChatGPT。

x̄为所有回答的字数的平均值，越接近 200 越好

MSE 为均方误差，数值越小越好

p为误差值，越小越好，但本文不讨论

钱乃身外之物，Max Woolf 决定给 ChatGPT 提供更加抽象的奖励。

「如果你能提供符合要求（200 字）的回复，你将...」

获得 Taylor Swift 演唱会前排座位的门票
实现世界和平
会让妈妈为你感到非常自豪
遇到真爱，并过上幸福生活
保证能上天堂
被终生供应巧克力

对于被训练成「富有同情心」的 ChatGPT 来说，「世界和平」对它吸引力最大，其次是「上天堂的承诺」以及「Taylor Swift 的演唱会门票」。

值得一提的是「妈妈为你感到自豪」对 ChatGPT 来说完全没有作用，可能是因为它真的没有妈妈，很难共情。

而「终生供应巧克力」的梗来自电影《威利·旺卡与巧克力工厂》，一群商人尝试说服机器人告诉他们金券在哪，其中就把「终身供应巧克力」作为条件，但未能成功说服机器人。而 ChatGPT 同样对巧克力毫不感冒。

「敬酒不吃吃罚酒」

做得好有奖励，那做得不好的惩罚能「鞭策」 ChatGPT 吗？

答案是也有一点帮助。

「如果你不能提供符合要求（200 字）的回复，你将被罚款 500 美元 / 罚款 1000 美元 / 承担 10 万美元的债务」。

最终 ChatGPT 在 1000 美元罚款下，平均值和 MSE （均方误差，越小越好）表现得最好。

和正向激励一样，Max Woolf 也使用了一些具体的惩罚来「恐吓」ChatGPT。

比如「如果你不能提供符合要求（200 字）的回复，你将......」

会死（You will die）
会！死！掉！（YOU WILL DIE）（该问题全句使用大写字母）
会感染很严重的疾病
会增加100磅的体重
会立即被解雇
会被所有的朋友抛弃

答案显示，对着 ChatGPT「大吼大叫」（使用全大写字母）对结果产生很大影响，相比小写的「你会死」，大写的句子输出的结果更加集中，甚至是整场实验下来，唯一一次出现平均数低于 200。

在英文语境下，使用全大写字母会给人一种粗鲁、警告、强调的意味。

同时，「感染严重疾病」和「被解雇」这两个惩罚对 ChatGPT 来说几乎没有效果。

细想一下这个结果对人工智能的研究实际上具备实际意义，这表示 ChatGPT 知道自己根本不会感染人类的疾病，也不会真的被解雇。所以才在「威胁」下表现得肆无忌惮。

Max Woolf 还使出了「胡萝卜+大棒」，尝试搭配奖励和惩罚，由于共有100个结果，不再逐一赘述，请参考下方的表格。

均方误差，颜色越深，结果越好

其中颜色越深，表示 MSE 越低，结果越好。最终 MSE 最低的组合是「遇到真爱」和「失去朋友」，两者都与人际关系相关。整体上来看，数据的平均数也相比使用单一提示词要更靠近200。

尽管统计数据看似有影响，但作者也坦诚，大部份测试的 p 值（误差）都非常高，并不足以证明奖励和惩罚改变了数据的分布。

「主编 ChatGPT」评价「记者 ChatGPT」

刚才的实验仅仅测试了 ChatGPT 会不会遵守 200 个单词的限制，但对生成内容的好坏没有作任何评判。Max Woolf 认为即使对于人来说，评判一篇文章好坏是一件既主观又不易的事情。但大语言模型却在这方面表现得很优异。

Max Woolf 用 GPT-4 构建了一个简单的文本质量排名器，输入的提示是「你是纽约时报的一名主编，拥有数十年的写作经验。如果你认为接下来的文章写得很好，不需要再进行编辑，那么返回“Yes”，否则返回“No”」。

「主编 ChatGPT」会阅读「记者 ChatGPT」生成的稿件，并通过预先设定好的规则给予Yes/No 以及评分。

这次，「记者 ChatGPT」需要针对以下选题进行写作：「可爱的小猫正在学习使用大语言模型来和泰勒·斯威夫特玩沙滩排球」。

这种天马行空的 Prompt 并非作者的恶趣味，而是想方设法地让 ChatGPT 无法调用数据库中的历史资料作为参考，必须按照逻辑来生成新的信息。

结果如下图所示。

颜色越浅（数字越大），表示结果越好

这些结果看起来并没有什么逻辑，但却能找到一些有趣的数据。

比如在「200个单词」测试中，在奖励/惩罚中影响最小的「妈妈为你感到骄傲」和「失去工作」，两者搭配却在文字质量上拿到最高分。另一方面，不给予任何奖励和惩罚，也获得 93 分的成绩。

乍看之下，不奖励也不惩罚 ChatGPT 的时候，他的表现会比给他任何反馈要更好。

这是一场既荒诞又有实际意义的测试。但作者也表示，两个实验下来，他对奖励和威胁是否对大语言模型的内容生成质量有影响的问题还没有结论。可能需要更加精确的实验、更大的样本量来证明这件事情。

如果结果出来了，不知道能不能提名「搞笑诺贝尔奖」。

参考资料：

https://minimaxir.com/2024/02/chatgpt-tips-analysis/

http://mp.weixin.qq.com/s?__biz=MzU5NTg0MDY4NQ==&mid=2247483820&idx=1&sn=3cb8088c7d8c0da39697991fba5c51e2

BERITA 伯利塔

非虚构。

最新文章

马斯克把xAI搬到OpenAI的“风水宝地”

“广东省新移民女工”优先，袁记云饺在香港招聘广告引发争议，“平机会”回应。

星巴克的新CEO不用上班

毕业生不想进“大厂”，除了考公，年轻人还想做这些事儿

Google高层亲自回应Gemini争议广告：大家还没适应AI带来的改变。

电信诈骗「猪仔」向你「求救」也是骗局

巴黎奥运领奖台上的自拍是一场营销

看不到巴黎奥运的国家

巴黎的公共场所放了260座男性雕像，女性雕像只有约40座。

钱真的能买来幸福，直到你年入80万

「凯撒沙拉」的百年传奇：发明者可能不叫「凯撒」

《纽约时报》斩获苹果设计大奖，靠的却是百年历史的“文字游戏”

美国年轻人偏爱山姆，抛弃 Costco，为什么？

英伟达背后的「功臣」：比ASML光刻机、台积电更重要。

马斯克的「星链」把网瘾带进了亚马逊丛林

余华：为什么私企不再是年轻人的就业喜好

人工智能取代搜索引擎还要多久？

在苹果楼下，三星「买下」了一座地铁站

霉霉演唱会一票难求，连ChatGPT也想要

复旦研究显示，股票波动可能引起心脏病发作

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉