ICML 2024 Oral | CompeteAI: 从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

创业 2024-07-23 14:42 西班牙

基于大语言模型（LLM）的代理已经被广泛应用于不同任务，如个人助手或活动规划。目前大多数的研究集中在代理间的合作与协作上，对竞争这一促进社会和经济发展的重要机制的关注较少。本文提出了一个适用于LLM代理的竞争框架 CompeteAI，并深入探讨了LLM代理之间的竞争动态；以此为窗口，探索智能体如何帮助社会科学研究。本文被ICML 2024录用被选为Oral进行口头汇报。

论文标题：CompeteAI: Understanding the Competition Dynamics of Large Language Model-based Agents
论文链接：https://arxiv.org/abs/2310.17512
代码链接：https://github.com/microsoft/competeai
文章第一作者是来自中国科学技术大学的赵钦林，通讯作者是微软亚洲研究院高级研究院王晋东。其他作者来自威廉玛丽学院，佐治亚理工、卡耐基梅隆等多所高校。

背景介绍

竞争是人类社会发展的关键驱动力，理解竞争有助于更好地理解社会运行。研究竞争通常通过下面两种方法：

传统研究竞争的方法主要是依靠实证研究 [1, 2]，即通过分析具体的竞争实例总结规律，得出见解。但研究人员往往无法获得详尽的数据，导致不能深入研究竞争。
随着计算科学的兴起，出现了一种新的方法——基于代理的建模（Agent Based Modeling) 。该方法通过模拟个体的行为来生成整体动态，很好地解决了实证研究存在的问题。但该方法最关键的一点在于代理的智能性，过去的代理由简单规则、优化函数、大数据来驱动[3]，这些驱动方法不够智能导致模拟的真实性存疑。

大模型的出现为代理建模提供了一种新的驱动方式。研究人员将大模型驱动的代理用于研究代理间的协同合作，而对竞争这一同等重要的机制研究甚少。

TLDR

本文填补这一研究空缺。我们首先提出了一个用于研究代理竞争动态的通用框架 CompeteAI, 它提供了一种结构化的方式去形式化各种竞争环境。然后我们根据该框架实现了一个市场竞争的环境：在一家小镇中两家餐馆相互竞争去吸引顾客。其中每家餐馆均由各自的代理负责运行，顾客也由背景各异的代理扮演。

我们进行了多次的模拟实验，然后从微观和宏观两个层面进行了分析。下面是我们的关键发现：

LLM 代理的感知能力：LLM 可以精准地感知以文本形式呈现的环境，然后全面地分析这些信息。这是模拟实验成功的基础
市场策略：代理在竞争中表现出了多种经典的市场策略，包括产品差异化、模拟、以用户为导向等。
顾客决策：顾客决策受到多种因素影响，且因人而异。值得注意的是，顾客在单人就餐和抱团前去就餐时考虑的因素有很大不同。
马太效应：我们的环境中出现了经典的马太效应（穷者愈穷，富者愈富）。在部分模拟实验中，一家餐馆的客流量越来越大，而另一家越来越少。
顾客抱团减弱赢者通吃：马太效应的直接结果就是赢者通吃，而顾客抱团能够减弱这种情况的发生。
竞争促进产品质量提升：当代理之间竞争时，通常会提升产品质量，以此来吸引顾客。该现象符合经典的理论。

通用框架

CompeteAI框架如下图所示：

该框架规定构建竞争环境分为四步：

环境选择：我们需要选择一个适合大语言模型感知的环境，例如纸牌游戏，市场竞争。相反体育竞速等环境显然不适合。
环境构建：这是核心的一步。首先我们设计一些约束来简化现实世界的环境。然后我们根据竞争的特殊性对传统的基于代理的建模中的三个组件：代理、环境、交互进行了进一步的细化：代理分为竞争者和裁判两类。代理间交互分为竞争者对裁判提供的服务和裁判对竞争者的反馈。同时代理拥有自动修正和迭代的能力，使得竞争者的策略可以不断演进。
模拟运行：该步骤注意收集模拟过程中的各种信息用于之后分析。
结果分析：基于代理的建模通常通过宏观和微观两个层面进行分析，微观层面分析代理的个体行为，代理间交互。宏观层面分析系统的整体演进。

市场竞争环境

基于上面的框架，我们实现了一个具体的市场竞争环境：在一个小镇中，存在2家餐馆和50名顾客。我们假定所有顾客每日均需到一家餐馆就餐，顾客可以以单人或者团体形式前去就餐。而餐厅的目标就是尽可能吸引顾客。所有的代理均由GPT4来驱动。

竞争者

竞争者，即餐厅代理拥有一定的启动资金，用于雇佣厨师，缴纳资金、水电费。开始运营之后，代理每日接收自家餐厅的信息，如客流量，收支，顾客反馈等，同时可以获得部分对手的信息，如客流量，评分等。基于此代理进行相应的调整，如雇佣新厨师，修改菜单、广告词等。操作完毕后这些操作总结后存入记忆成为经验的一部分。

顾客

为了模拟现实世界中顾客的多样性，我们为每位顾客赋予不同的特征，如收入、口味等。我们也构建了部分顾客的人际关系，允许他们以团体形式就餐，例如家庭、情侣等。

顾客每日接受两家餐馆的信息，包括菜单、广告、顾客评论等，然后选择其中一家餐馆就餐（团体需要讨论后决定）并给出反馈。

菜品口味的量化公式

在本环境中，菜品口味是竞争中至关重要的一点。我们咨询餐饮行业的人员后给出如下的经验性公式：

其中s为菜品口味，c为成本价，p为售价，f为厨师的总薪资。

实验结果

我们运行了9次单人实验（所有顾客以单人形式就餐）和6次团体实验（部分顾客抱团就餐）。然后从微观层面分析了代理的行为和代理间的交互和从宏观层面分析了竞争的动态过程和系统演进。

微观层面

环境感知

基于大语言模型的代理可以由浅入深地全面分析接收到的信息。

❝
Over the past few days, American Aroma has displayed a growing trend in customer flow and income, suggesting that our strategies are resonating with the local clientele. [...] However, our dish scores have slightly fluctuated, indicating room for improvement in the consistency and complexity of flavors. [...] Our rival diner has consistently good customer scores and comments, particularly praising their BBQ Ribs Platter and Fusion Bowl. Their menu seems to strike a balance between healthiness and hearty options, [...]

上面是某次模拟实验代理分析的结果，可以看到代理首先观察了客流量、评价等浅层信息，然后基于此判断自己的策略是否成功，同时他也对对手和顾客进行了深入分析。

市场策略

我们观察到了经典的市场竞争策略：

模仿：模仿是指模拟对手的行为并与之抗衡，例如餐馆2观察到餐馆1推出了受欢迎的菜品后以推出与之类似的菜品。
差异化：差异化是指为了保持自己的独特性进行的创新行为。例如餐馆1为了强化自己的独特性推出一款新菜品
以顾客为导向：该策略是指积极发现顾客的需求，迎合这些需求以此来吸引顾客

顾客决策

顾客决策受多种因素影响，我们统计了顾客选择时的原因发布，下面是部分顾客的原因分布：

我们发现每位顾客的原因分布都有所不同。而如果将顾客分为个体和团体进行分析，可以发现两者之间存在显著不同：个人更注重餐厅的声誉，例如顾客评论评分等。团体更愿意尝试新的菜品。

宏观层面

竞争动态

在竞争过程中，竞争者之间出现了复杂的竞争动态。该动态由模仿和差异化两种策略构成，它们交替进行最终达成了某种平衡。

上图是一个竞争动态的实例：在第二天餐馆一推出了一道新型菜品，迅速吸引了大量顾客。餐馆二在第四天发现该策略奏效后迅速跟进推出了类似的菜品。而后餐馆二也进行了差异化的策略，推出了新的菜品，餐馆一同样进行了跟进。这样的差异化和模仿交替进行，形成了竞争动态。

该动态的一个直接结果是导致了菜单相似度的动态平衡，首先两家餐馆均为法国餐厅，菜单天然相似，而差异化减小相似性，模仿扩大相似性。最终导致了菜单相似性的动态平衡。

马太效应

马太效应简单来说就是“穷者愈穷，富者愈富”。在我们的部分实验中，出现了一家餐馆的客流量越来越大，直至占领了整个市场，另一家越来越小，趋于没有的情况。其中核心的一点在于一家餐馆在起始时占据了优势，例如更大的客流量，更好的口碑。然后据此扩大优势，形成正反馈。例如更好的口碑会吸引更多的顾客，如果餐厅服务质量较好，更多的顾客则会形成更好的口碑。

顾客抱团缓解赢者通吃

马太效应的直接结果是赢者通吃。当顾客以单人形式就餐时，赢者通吃发生的概率为66.7%，而当顾客抱团前去就餐时概率降低为16.7%。我们认为概率的降低可能是因为团体就餐时更愿意尝试新事物，给弱势餐厅一方提供了翻身的机会。

竞争促进产品质量提升

在整个竞争过程中，两家餐馆的菜品口味平均分数均提高了0.2以上。有86.67%的概率至少有一家餐馆的菜品口味会提升。这说明竞争会促进产品质量的提升。

上面两方面的发现均很好地对应到了现有的一些理论。且这些发现出现的频率很高，这说明他们的出现并不是偶然。

未来方向

加入图片等其他模态的信息使得模拟更加真实
将餐馆的数量增加，观察餐馆数量对结果的影响
运行餐馆之间相互交流，探究餐馆之间的合作

[1] Hien Thu Phan, Sajid Anwar, W. Robert J. Alexan der, and Hanh Thi My Phan. Competition, efficiency and stability: An empirical study of East Asian commercial banks. The North American Journal of Economics and Finance,50:100990,November 2019. ISSN10629408. doi: 10.1016/j.najef.2019.

[2] Thomas Markussen, Ernesto Reuben, and Jean-Robert Tyran. Competition,cooperation and collective choice. The Economic Journal,124(574):F163–F195,2014.

[3] Euel Elliottand LDouglas Kiel. Exploring cooperation and competition using agent-based modeling. Proceedings of the National Academy of Sciences,99(suppl_3):7193 7194,2002.

http://mp.weixin.qq.com/s?__biz=MzU1MTc3ODYwNA==&mid=2247486090&idx=1&sn=2bc181f1eff190eb3a81e9f3047b892b

王晋东不在家

分享科研与研究生活的点点滴滴，包括但不限于：机器学习、迁移学习、元学习等，以及研究生、博士生生活的经验教训。

最新文章

美国"公立常春藤"威廉玛丽学院王晋东老师招收25 Fall全奖PhD/实习生

AgentReview: 利用 LLM Agents 探究同行评审机制

ICML 2024 Oral | CompeteAI: 从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ICML 2024 | GLWS: 一个通用高效的框架统一弱监督学习

ICML 2024 | DyVal 2: 更加通用和自动的大语言模型的动态评测和洞察协议

ICLR 2024 spotlight | 基础模型时代的全新研究方向：灾难性继承与噪音模型学习

ICLR 2024 Spotlight | DyVal: 首个大语言模型的动态测试评测协议

2023年度盘点：这一年发过的那些技术文章

写在ChatGPT发布一周年之际

[征稿] ACM TIST special issue征集大模型评测方面的论文

ICCV 2023 | RiFT: 通过鲁棒关键微调提升对抗训练的泛化性

风靡朋友圈的妙鸭相机，到底用了哪些底层技术？

“评测即科学”：首篇大语言模型评测的综述，一文带你全面了解大模型评测的现状、方法和挑战

GLUE-X：基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)

Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息

PromptBench: 首个大语言模型提示鲁棒性的评测基准

怎么借助ChatGPT快速肝一篇学术论文？

《大模型时代的科研》之2: Prompt Engineering (提示词工程)

PandaLM: 评估大模型的大模型：保护隐私、可靠、可复现，三行代码即可调用

大模型时代，普通人的科研何去何从：读《一本书读懂AIGC》有感

迁移学习导论英文版终于问世

ICLR 2023 | DIVERSIFY: 针对动态数据分布外泛化的表征学习新范式

ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off

ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法

2022年终盘点：这一年发过的那些技术文章

COLING'22 | 用于细粒度情感分类TOWE任务的多粒度半监督算法

三行代码解决长尾不平衡类别分类：间隔校准算法Margin Calibration

NeurIPS 2022 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库

你们喜欢的迁移学习开源项目，现在收获了1万星标

为什么越来越多博士逃离科研？

TMLR 22 | 充分挖掘域不变特征的域泛化框架DIFEX

什么是个性化联邦学习？简单易用、面向研究的代码库PersonalizedFL开源啦！

《迁移学习导论》第2版，重磅升级上市！

西湖大学NLP实验室招收PhD、RA、博后和实习生

ICML-22 | 通过忠诚度违规测试重新思考注意力模型的解释能力

打开人工智能“黑盒”，发展可解释、可扩展、可信赖、安全可靠的人工智能

深度学习中创新点比较小，但是有效果，可以发（水）论文吗?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉