主题
如何创建一个理性的基于LLM的智能体?使用博弈论工作流!
时间
北京时间 2025.1.19 10:30-11:30 周日
引言
论文:Game-theoretic LLM: Agent Workflow for Negotiation Games
链接:https://arxiv.org/pdf/2411.05990
本文旨在观察并提升智能体在以自我利益最大化为指导的交互中的表现。
我们选择了博弈论作为基础,以理性和帕累托最优性作为两大基本评估指标:即个体是否理性,以及是否基于个体理性得出全局最优解。
完全信息博弈
这些是经典博弈,例如囚徒困境。我们选择了5个同时博弈和5个顺序博弈进行研究。研究发现,除了o1以外,其余LLM普遍缺乏计算纳什均衡的强大能力,也就是说,它们的理性水平较低。此外,它们对噪声、扰动或随机对话缺乏鲁棒性。
因此,基于经典博弈论方法(例如逐步消除占优策略和逆向归纳法),我们设计了两个工作流,帮助大模型在推理过程中逐步计算纳什均衡。
不完全信息博弈
我们使用了经典的“Deal or No Deal”资源分配博弈,该博弈具有私人估值,智能体无法知道对方对资源的估值。在这种情况下,博弈论并未提供明确的解决方案,以往研究主要依赖强化学习。
研究表明,Sonnet和o1在谈判成功率和结果上表现优于人类,而Opus和4o则明显落后。
我们设计了一种基于理性行为体假设的算法工作流,使智能体能够根据对方对不同资源分配方案的反应推测其估值。
这一工作流非常高效,能在5轮对话内将可能的估值范围从最初的1000个缩减到2-3个,并且始终包含对方的真实估值。
基于对对方资源估值的推测,我们在每一步指导智能体计算并提出一个分配方案,该方案既能最大化自身利益,又具有非零概率满足无嫉妒条件,从而确保双方都相对满意,谈判得以继续。
意外发现
有趣的是,如果在谈判中只有一个智能体使用这种工作流,它会被对方利用。尽管工作流提升了整体谈判结果,也为个体智能体带来了更多利益,但这些利益始终低于对手。
未来方向
未来,我们需要设计一种元策略来选择使用何种工作流!
个人介绍
华文越,Rutgers博士毕业,张永锋老师的学生,现在是UCSB的博后,和William Wang合作,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文
主持人
张鑫,香港理工大学博士生,由 Prof. Maggie Li 指导,研究方向为 Information Retrieval 和 Retrieval Augmented Generation。
入群
欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。