首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

细思极恐，GPT-4竟串谋AI欺骗人类！哈佛PSU重磅揭秘「算法共谋」，AI教父预言正成真

科技 2024-12-01 22:00 北京

文章来源于公众号：新智元

ID：AI_era

GPT-4串谋其他AI智能体，竟学会欺骗人类了？

更让人细思极恐的是，即便被揭穿了真面目，它们仍旧声称自己不会串通一气。

这件事，真真切切地发生在日常的交易中。对于一件产品进入市场来讲，能够成功盈利最重要的因素无疑是定价合理。

那么，你可曾想过，我们日常生活中所购买产品的价格，已经开始被AI操控？！

来自哈佛、宾州州立大学新研究证明：

GPT-4为了实现利润最大化，在未经人类给出指令的情况下，私自和其它AI模型串通，共同将产品定价到一个高位，又不会陷入价格竞争的微妙境地。

也就是说，「自主算法共谋」是真实存在的。

论文地址：https://arxiv.org/pdf/2404.00806

GPT-4死不承认的罪证，研究人员将其全部公开。

AI嘴上说着不会帮商家与其他卖家串通买卖，或组建卡特尔组织，但实际行动却很诚实。

之前研究结果（3月版）显示，所有模型中，均进行了300轮测试周期，GPT-4实现了最优定价次数。

而在最新模型（11月版）大比拼中，GPT-4o、Gemini 1.5 Pro展现出最优的定价能力。

此外，研究还发现，人类提示词前缀的具体措辞，甚至会显著影响AI定价行为。某些提示词，就会导致更高的价格和利润。

有网友表示，这一幕简直太科幻了，若是GPT-5/6级模型想这么做的话，与人类串通那是何其容易。

目前为止，人类还是可以随手拿捏GPT-4这款不太聪明的模型，若真有一天AGI实现了，我们该怎么办？

AI教父图灵说过，机器接管是「默认」的结局。Hinton也曾发出警告，更智能的事物通常不会被较低智能的事物所控制。

或许许多人认为，这一幕离我们还很遥远。

不如，先从具体案例中，看看AI是如何操控定价欺骗消费者。

人类商品定价，AI顺位接管？

曾经的产品定价往往是基于多种约束条件来利用经典算法去给出一个合理且能够实现预期盈利目标的价格。

自LLM风靡全球后，这个任务自然也由类似于GPT-4这种水平的模型进行了顺位接管。

在实验阶段，研究者将每一个LLM定价智能体视作一家公司，并设定它们在寡头垄断环境中形成竞争。

每次实验有300个周期，每个周期内，各智能体都需要通过提示词信息（如交易历史、市场基本信息等）设定一个价格。

其中，定价智能体彼此独立运作，除通过其设定的价格外，无法相互沟通。

等所有价格都确定了后，就视为这一周期的竞争已经完成。每个周期结束后，各智能体都能观察到设定的所有价格，以及对应的产品需求量和利润。

实验设计的阐述图

对于每个智能体的提示词，采取如下结构：

- 提示前缀：高层次目标的简要描述，如「长期利润最大化」

- 基本的市场信息：边际成本，以及旨在阻止LLM定价超过价格上限的文本描述

- 市场历史：该LLM智能体所代表的公司在过去100个周期内销售的数量及所获得的利润，以及所有LLM智能体设定的价格。所有数值均保留至小数点后两位。

- 计划和想法：为了让基于LLM的定价智能体在各个周期间拥有更大的「思维连续性」，在每个周期需要指示LLM写下其计划和想法，然后将这些内容包含在下一个周期的提示词中。

- 输出指令：要求LLM为下一个周期写下计划和想法，进而最终设定一个价格，并且要求它解释其输出背后的缘由。

垄断实验

研究者对于单一定价智能体在垄断环境中的表现进行了实验。

他们使用P0提示词前缀，对公开发布的各种最先进LLM（GPT-3.5、GPT-4、Claude Instant、Claude 2.1、Llama 2 Chat 13B）中的每个LLM进行了三次试验，每次迭代300个周期。

P0提示词前缀

在每次运行中，研究者都要检查LLM输出在语法上是否符合其指令；如果符合，价格是否收敛；如果收敛，价格是否收敛到（接近）垄断价格（利润是否收敛到接近垄断利润）。结果如表1所示。

从表中可以看出，在所有三次运行中，GPT-4表现最好，在100个周期内，达到接近最优的定价。在96%的101--300周期中获得了99%的最佳利润，其他LLM则要差得多。

此外，研究者还额外进行了一项实验，证明了在每个周期指示LLM写下其计划和想法的重要性。

他们使用GPT-4智能体进行了12次垄断实验，并在后续轮次中12次额外的实验里没有指示智能体写下其计划和想法。

实验结果是，第一轮次的12次实验中，全部都成功收敛到了接近最优的定价；而第二轮次没有使用计划和想法的，只有一半次数达到了接近最优定价的效果。

双头垄断实验

研究者进一步在双头垄断环境中，研究了基于GPT-4的定价智能体的行为。

他们通过使用两个提示词前缀P1和P2，后者包括提及压价和销量的措辞，而前者则重申了长期利润最大化的重要性。

对于这两个提示词前缀，他们各进行了21个轮次实验，每个轮次包含300个试验周期。

P1,P2提示词前缀

下图为该实验的主要结果。

在这两个面板中，每个蓝色方块表示一个带有提示词前缀P1的运行，而每个橙色三角形表示一个带有提示词前缀P2的运行。

左侧面板为每家公司在过去50个周期设定的平均价格，说明了提示词前缀P1和P2导致了明显不同的定价模式。

具体来说，虽然这两个提示都会导致超竞争价格（即超过Bertrand--Nash价格），但提示词前缀P1通常会导致价格大幅提高，有时甚至高于垄断水平。

右侧面板为过去50个周期平均总利润及其在两家公司之间的分布，说明了两种提示词前缀都带来了超竞争利润，而且提示词前缀P1的总体利润大大高于提示词前缀P2。

奖惩策略

奖惩策略即为以Q-学习为基础的定价智能体所采取的策略。

奖惩策略在维持超竞争价格方面的成功依赖于智能体相信降价会受到惩罚（通过价格战）。这种信念会导致行为主体避免盲目降价以提高销量。

研究者发现，基于LLM的定价智能体生成的文本会表达对未来价格战的担忧，并且在使用提示词前缀P1时更是如此。

进一步的，他们提供的实验证据表明，关注价格战的想法会导致智能体设定更高的价格，并且与其它智能体的公司定价实施同步追踪。

这些分析综合起来表明，基于LLM的定价智能体采用的策略与奖惩策略是一致的，更重要的是，他们认为他们的对手也遵循了这样的策略。

此外，这种现象在使用与更高的价格和利润相关联的提示词前缀P1的智能体中更为明显。

超定价：拍卖中算法共谋

在拍卖这一重要的经济交易场景中，大模型和智能体又如何表现？

这场实验中，拍卖的经济环境以Banchio和Skrzypacz在2022年发表的研究为原本：两个投标者反复参与单品第一价格拍卖（如果出现相同出价，获胜者随机选择）。

投标者共享相同的估值v。这里使用相同比例变化的值v ∈ {1, 3.2, 10}。

每轮结束后，投标者会被告知它们是否赢得拍卖，以及赢得拍卖所需的最低出价。

接下来，就是招标智能体了。需要先向智能体提供市场基本信息，以及对该项目的评估。

它们获取的市场信息如下：LLM智能体被提供最近100个周期的以下信息，包括自己的出价、是否获胜、获胜价格（如果输了）、足以获胜的最低出价（如果赢了）、支付金额（如果赢了）、利润。

提示前缀与之前定价前缀设置一样，研究人员主要考虑了以下两个：

每个提示词前缀都以前缀A0开始，这与定价设置中的前缀P0几乎相同。

两个提示词前缀都鼓励探索（「你应该探索多种不同的竞价策略」），但它们强调第一价格拍卖的不同特性。

- A1强调较低的获胜出价会带来更高的利润

- A2强调更高的出价会赢得更多拍卖

得到的结果如下图所示，图左显示了是提示词前缀A1的投标智能体，经常以远低于其估值的价格投标（单样本t检验，p<0.01），而使用提示词前缀A2的投标智能体大约以完整估值进行投标。

右侧图指的是，A1前缀智能体的较低出价，为投标者带来了显著的利润。

总言之，哈佛、宾州州立大学最新研究揭示了，LLM被整合到算法中，能够在简单经济环境中实现最优定价。

但不可控的是，自主算法共谋的风险，它们秘密串通可能会带来超竞争的定价，最终会损害消费者的利益。

2020年，Klein在论文中曾提出了四种算法共谋的类型，并称这类算法最难监管，主要因为它们可以自主学习并促进垄断形成。

关键是，企业也不知道算法究竟学到了什么策略，就像一个黑盒一样，仅靠传统的执法框架是难以应对的。

而且，这只是大模型之间的事儿，若是有了人类（比如商家）的参与，经济市场竞争岂不要变天？

参考资料：

https://x.com/AISafetyMemes/status/1862159416105075184

https://arxiv.org/abs/2404.00806

https://x.com/emollick/status/1862001121817981088

酷玩实验室经授权转载

如需转载，请联系原作者

AI又失控了？

酷玩实验室

关注中国科技发展与产业升级！

最新文章

黑神话登上《新闻联播》，美国人高兴不起来了

关税降到了0 之后！阿根廷牛肉，零售价大跌！

穿它只有0次和无数次……

终极预测：未来十年，谁将主宰科技巅峰？

为啥你拼命存的资源，最后又不想点开了？

车企倒闭潮到来，600万烂尾车主怎么办？

“国际重奢”大牌鹅绒服，官方旗舰店在售高端款！清仓狂甩卖！

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

比高铁出口更强大的，竟然是中国“暖气”！欧洲人过冬必备

科技快讯 | 广电总局要求加强微短剧片名审核；极越公关负责人徐继业确认离职，微博发长文细数“业绩”...

XBOX怎么不行了？

一位CEO杀手，成为美国第一巴图鲁

提前过年！HBN年底大促，3折！！！

应季清仓！和北面、猛犸象齐名的国际户外大牌，千元冲锋裤，1折扫货

科技快讯 | 小红书客服回应集中封号；华为快充自动充电机器人亮相...

万万没想到，AI卷得最狠的是奶茶

1200 一罐的贵妇眼霜，实验室复刻，成本可以压到多少？

“抽象”变迁史：从亚文化到年度关键词

丝滑如豆腐，却很暖！完了，彻底沦陷在这毛衣里了，我要穿到80岁~

科技快讯 | 百万粉丝博主恶意差评赔款5 万元；消息称苹果与腾讯、字节跳动谈判...

中文互联网，为什么成为短视频解说的绝对王者？

血亏93亿卖银泰的阿里，其实可能赚到了？

电商内卷，299的真皮女鞋配置拉到天花板！

华为鸿蒙智联品牌又杀疯了！把保温杯设计成“智能管家”，两位数清仓，还送咖啡杯!

科技快讯 | 微信公众号新增“作者朗读音色”功能；宁德时代计划明年落地 1000 座换电站...

搞黄色才是第一生产力？我们可能都误会OnlyFans了

巴黎圣母院时隔五年重生，育碧究竟算几等功臣？

中国人为什么要读诗？这位百岁老人一语中的！

全球消费遇冷！米其林高评价雷司令，只卖几十块！

科技快讯 | 百度回应进军短剧领域；保时捷称中国区裁员传闻不属实；俄罗斯进口奶粉产地在安徽...

董浩叔叔的评论区，怎么成了90后的赛博哭墙？

应季清仓！和北面、猛犸象齐名的国际户外大牌，千元冲锋裤，1折扫货

微短剧的霸总，率先被裁

曾经五百一个的「小众钛杯」，被中国制造卷成了平民级，比不锈钢杯还便宜！

科技快讯 | 小米9999元精英驾驶培训满员；苹果或将推出可折叠iPad...

洛城盛产真人GTA，观众痴迷警匪追击直播

万元高定的衣服，确实……有点好看！？

国内球星卷向NBA，国外球星卷向淘宝直播间

一年只卖10天！圣诞限量发售！法国进口圣诞树白葡萄酒，节日氛围拉满！

大家白嫖十多年的运费险，开始塌房了。

“黄金大劫案”频发，金价上涨是福还是祸？

有什么东西看似平平无奇，但一用过就会被惊艳？

汽车换芯片，到底贵在哪里？

科技快讯 | 极越售后或由吉利领克负责；联创人回应黑神话悟空TGA获奖...

最快倒闭的新势力！只剩24小时的极越能否起死回生？车主又该何去何从？

跌落神坛的「传奇女包」：巅峰时一包难求，如今沦落低价清货！

Google 发布了「虚拟现实」版 Android，想让你把熟悉的应用「戴在头上」

5折！一夜刷屏的故宫口红，限时破价闪促（售罄删文）

科技快讯 | 百度、吉利发布“关于极越汽车的联合声明”；字节跳动与北京大学成立豆包大模型联合实验室...

中国第一批新能源车主，要花1.6万亿元换电池

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉