首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

如何创建一个理性的基于LLM的Agent？

教育 2025-01-15 17:59 江苏

主题

如何创建一个理性的基于LLM的智能体？使用博弈论工作流！

时间

北京时间 2025.1.19 10:30-11:30 周日‍‍‍

引言

论文：Game-theoretic LLM: Agent Workflow for Negotiation Games
链接：https://arxiv.org/pdf/2411.05990

本文旨在观察并提升智能体在以自我利益最大化为指导的交互中的表现。

我们选择了博弈论作为基础，以理性和帕累托最优性作为两大基本评估指标：即个体是否理性，以及是否基于个体理性得出全局最优解。

完全信息博弈

这些是经典博弈，例如囚徒困境。我们选择了5个同时博弈和5个顺序博弈进行研究。研究发现，除了o1以外，其余LLM普遍缺乏计算纳什均衡的强大能力，也就是说，它们的理性水平较低。此外，它们对噪声、扰动或随机对话缺乏鲁棒性。

因此，基于经典博弈论方法（例如逐步消除占优策略和逆向归纳法），我们设计了两个工作流，帮助大模型在推理过程中逐步计算纳什均衡。

不完全信息博弈

我们使用了经典的“Deal or No Deal”资源分配博弈，该博弈具有私人估值，智能体无法知道对方对资源的估值。在这种情况下，博弈论并未提供明确的解决方案，以往研究主要依赖强化学习。

研究表明，Sonnet和o1在谈判成功率和结果上表现优于人类，而Opus和4o则明显落后。

我们设计了一种基于理性行为体假设的算法工作流，使智能体能够根据对方对不同资源分配方案的反应推测其估值。

这一工作流非常高效，能在5轮对话内将可能的估值范围从最初的1000个缩减到2-3个，并且始终包含对方的真实估值。

基于对对方资源估值的推测，我们在每一步指导智能体计算并提出一个分配方案，该方案既能最大化自身利益，又具有非零概率满足无嫉妒条件，从而确保双方都相对满意，谈判得以继续。

意外发现

有趣的是，如果在谈判中只有一个智能体使用这种工作流，它会被对方利用。尽管工作流提升了整体谈判结果，也为个体智能体带来了更多利益，但这些利益始终低于对手。

未来方向

未来，我们需要设计一种元策略来选择使用何种工作流！

个人介绍

华文越，Rutgers博士毕业，张永锋老师的学生，现在是UCSB的博后，和William Wang合作，主要研究方向为llm reasoning和llm-based agent，在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文

主持人

张鑫，香港理工大学博士生，由 Prof. Maggie Li 指导，研究方向为 Information Retrieval 和 Retrieval Augmented Generation。

入群

欢迎加入NICE每周分享交流群，可与NICEer唠嗑，以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证，群内无广告。

备注【昵称-单位-方向-NICE入群】

深度学习自然语言处理

一个热衷于深度学习与NLP前沿技术的平台，期待在知识的殿堂与你相遇~

最新文章

deepseek技术解读(1)-彻底理解MLA（Multi-Head Latent Attention）

如何创建一个理性的基于LLM的Agent？

Nvlink对大模型推理的速度有多大提升？

25年的大模型Infra，SSP人才画像？

阿里通义等提出Chronos：慢思考RAG技术助力新闻时间线总结

2025年Next Token Prediction范式会统一多模态吗？

2024 年终总结：Agent，Coding 与 AI Infra

邀请参与首届XLLM Workshop @ ACL 2025

2024年MLSys研究热点是什么？

To Balance or Not to Balance? 一个简单有效的长尾任务训练方法

LoRA 的原理和用 PyTorch 从零到一的代码实现

引领人机交互革命？微软研究团队发布80页的大模型GUI智能体综述

聊聊PRM（过程奖励模型）

2024 年度总结 LLM System Research：过去半年的科研心路历程

强大推理背后的危机：PRMBench 揭示过程级奖励模型的潜在缺陷！

Virgo：类o1多模态大模型的初步探索

24届毕业生聊PhD就业，国内or国外、学术界or工业界or创业

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

博士生罢工、工资上涨、学术头秃：PI生存指南

[vLLM vs TensorRT-LLM]：动态序列长度场景对比

图解Megatron TP中的计算通信overlap

从infra的视角聊聊DeepSeek-V3

手写self-attention的四重境界 self-attention

o1类大模型的过度思考: 2+3=？

2024年RAG：回顾与展望

Building effective agents笔记

微软公布OpenAI闭源模型参数！4o-mini 8B！

NICE42期 | 语言模型不听话怎么办？关于格式忠实性的探索

评价deepseek v3：又一个相信自己比英伟达懂GPU计算并做到了的团队

DeepSeek-V3技术报告解读

《大语言模型》：人工智能时代的知识盛宴，大模型中文书籍震撼发售！

OpenAI-o3 与 Monte-Carlo 思想

NICE41期 | 大模型评估的新视角：理论指标创新与下游任务应用分享

让Agent"少说废话"！打造高效的LLM多智能体系统

游凯超：我与vLLM的2024，很Passion！

最新RAG综述：15种经典RAG框架综述（上）

最新RAG综述：15种经典RAG框架综述（下）

LLM实践--支线：分布式训练框架的编程基础

NICE40期 | 自动生成模型卡与数据卡：迈向负责任的人工智能

刘鹏飞老师组研发PC Agent，让 AI 替你熬夜做 PPT

LLM，一艘方向不对但积重难返的华丽游轮...

o1复现的一点点心得

深度学习工作：从追求 SoTA 到揭示新现象

大模型推理张量并行的4种模式

百度&人大：长文本LLM全排序能力新方法

212页PPT：大模型时代的具身智能

RWKV-7：极先进的大模型架构，长文本能力极强

今天Qwen2.5技术报告发布啦！

Anthropic: 预训练阶段引入人类反馈更安全

图解OpenRLHF中基于Ray的分布式训练流程

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉