引言
个体模拟(Individual Simulation):利用 LLM 智能体来模拟特定个体或群体,侧重于对于单个人的特征复制,而不涉及多智能体交互; 场景模拟(Scenario Simulation):在一个集中的场景中组织多个智能体,由特定的目标或任务驱动,通常集中在特定场景中的小规模智能体上,研究多智能体的集体智慧; 社会模拟(Society Simulation):模拟智能体社会中更复杂多样的行为,探索现实世界应用中的社会动态,从小范围对社会理论、假设的验证,到对大规模的现实社会现象的探索。
综述链接:https://arxiv.org/abs/2412.03563 项目地址: https://github.com/FudanDISC/SocialAgent
个体模拟
概要(Profile):向模型提供被扮演个体的基本信息特征,继而影响其行为。概要涉及个体的年龄、性别、心理学特征等,主要通过描述和对话的形式呈现,通常包括人工整理和借助大模型生成两种方式。 记忆(Memory):存储并利用已有信息和感知信息,确保智能体行为一致性和连续性。记忆分为短期记忆和长期记忆。记忆的主要操作包括写入、检索和反思三种类型。 规划(Planning):帮助智能体模拟人类处理问题时的个性化决策过程,使其与模拟个体的思维方式一致。个体模拟的规划可以分为共情规划和主观规划。 行为(Action):将智能体的决策转化为特定的输出,支撑智能体与环境互动。行为的环境主要有简单对话和塑造情景两类,而行为类型分为开放域行为和封闭域行为。
非参数化提示:直接通过提示词直接为模型提供个体数据,依靠模型的上下文学习能力来模拟个体。个体描述通常通过系统提示词输入到模型中。 参数化训练:通过更新通用模型的参数来实现个体模拟,主要分为预训练、微调和强化学习三种方式。预训练在原始大模型上直接训练拟合个体相关数据。微调则根据特定任务和情境,调整模型以适应个体模拟需求。强化学习通过在动态环境中优化模型,不断学习个体行为来改进模拟效果。
人群个体:指具有相似特征(如心理特征或身份特征)的群体代表。人群模拟通常用于反映群体意见、评估特定群体的偏好和偏见。此类模拟常通过非参数化提示方法实现。 人物个体:指特定的个体,通常是广泛为人所知的角色。人物模拟中的角色可分为真实角色和虚拟角色,这些角色通常可以获取相关的高质量数据。
静态评估:通过让智能体直接生成输出进行评估,通常采用简单的问答、选择题或采访形式。静态评估可分为主观评估和客观评估,分别依赖人工或大模型依据主观标准进行判断,或使用数学和统计工具基于具体指标进行分析。 交互评估:在交互环境中评估智能体在与其他智能体或用户互动中的模拟能力。交互评估常应用于游戏表现、任务完成和角色扮演等场景,其关键特点包括精心设计的交互环境、实时的外部反馈以及多阶段的评估过程。
场景模拟
环境(Environment):在场景模拟中,环境定义了智能体操作与交互的具体背景。就像人类从周围环境中获取信息一样,智能体也依赖于环境从不同的来源接收输入信号。这些信号指导着智能体在系统中的行为与决策。由此,全面理解环境是智能体决策制定与任务连续性保障的基础。我们通过聚焦于配置、状态、历史和工具这四个关键方面对现有研究中的环境进行分析。配置:提供场景相关的基本信息以便智能体在明确的目标下进行交互。状态:包括场景执行过程中环境提供的信息。历史:是指随着场景的运行,过去的状态和互动逐渐积累成一系列记录。工具:提供与场景模拟任务相关的专业功能(如 Python 和 SQL),能够实现更准确和精确的结果。 角色(Role):在场景模拟中,我们根据智能体的任务和功能为其分配不同的角色。典型设置中有两类角色:参与者负责执行场景中的任务,而引导者则管理任务执行过程,并提供必要的支持。每个角色都有其独特的责任,侧重于系统操作的不同方面。各角色之间协作,以实现系统的整体目标。参与者:是积极参与任务执行和讨论的关键成员,他们的组织和沟通是场景模拟中任务完成的核心。引导者:在场景模拟中提供关键支持,负责规划流程、协调沟通和整合结果,例如规划者、协调者、集成者。 组织 (Organization):有效的任务执行需要精心协调和安排个体智能体之间的交互。组织框架决定了每个智能体如何与其他智能体协作以实现目标。通常,我们可以通过组织模式和组织结构来描述其组织框架。组织模式:决定了智能体之间的关系在整个模拟过程中的稳定性或动态变化。组织结构:反映了智能体之间的连接方式。 通信 (Communication):智能体之间的通信控制着信息的传递。为了更好地理解通信的内部机制,我们从通信形式和通信风格两个方面进行分析。通信形式:指通信的协议,主要分为非结构化自然语言和结构化语言。通信风格:指通信双方的立场,通常可分为合作性和竞争性两种。
对话驱动场景:对话驱动的场景以对话为驱动的场景涵盖了人们日常生活中以对话为核心的情境,如社交或娱乐目的的场景。这些场景的共同特点是关注解决与特定任务或领域无关的通用目标。我们将对话驱动场景分为三种主要类型:社交互动、问答和游戏场景。 任务驱动场景:在任务驱动场景中,智能体扮演具有特定功能的角色,以完成某一任务或任务集合。这些场景大多涉及与任务相关的一个或多个特定领域。我们将其划分为三个主要类别:基础与应用科学、软件开发和其他行业。在这些领域中,智能体被广泛应用于解决复杂的领域特定问题,通过自动化任务和提升决策过程的效率,推动任务执行的优化。
任务评估:任务评估衡量分配给场景的任务整体表现。自动评估使用预定义的指标和数学工具,如准确率、编码任务的 pass@k、成功率、覆盖度和谈判任务的成交价格等。这些方法高效且可扩展,但可能忽视复杂行为。因此,LLMs和人工专家被应用于对定性任务进行更细致的评估,并根据特定标准比较解决方案。 子任务评估:子任务评估衡量场景模拟中子任务的完成情况及其对整体任务表现的影响,作为复杂任务执行过程的评估。自动评估使用运输率、平均步骤数、任务成功率、重新规划尝试和效率提升等指标来评估子任务表现和策略效率。软件生成任务中常使用完整性、可执行性和一致性等指标。基于LLMs 的评估侧重于对比评估或胜率判断。同时,人工评估依赖参与者对执行性、修订成本或评论质量等指标进行主观评估。 系统评估:系统评估旨在整体衡量场景模拟中系统的有效性和效率。自动评估依赖于诸如 token 消耗、任务成功率和人性化得分等指标来衡量智能体的效率和真实性。额外的指标如准确率、精确度、召回率和F1 得分常用于评估诊断或预测任务中的系统准确性和一致性。基于 LLMs 的评估通常使用 GPT-4 来评估定性方面,如拟人化程度或诊断报告质量。人工评估则通常通过主观评估,例如采用Likert 量表对教学内容的语气、清晰度和支持性进行评分。这种方法常用于补充自动评估方法,并捕捉人类视角对系统输出的看法。
社会模拟
组成(Composition):社会由大量多样化的个体构成,这种多样性,涵盖了信仰、偏好、行为、规范和价值观等广泛的差异。目前,个体组成通常通过虚拟合成、现有数据集或基于真实分布的采样等方法实现。在确定总体个体组成后,有两个关键问题引发了研究者的关注:平衡模拟精度与规模:随着个体数量增加,对于个体的精细建模成本显著提升,因此需要在建模精度与模拟规模之间做出权衡,目前常采用简化个体细节或共享记忆等方式降低模拟成本;对特殊个体的建模:社会中的个体构成多样,但并非所有个体都扮演同等重要的角色,当前研究通常对名人或意见领袖等 “异常值” 进行详细建模。与此同时,基于模拟结果的干预策略通常干扰这些关键节点来影响整个系统的行为结果。 网络(Network):社会互动通常通过社交网络进行,网络决定了信息和影响力的传播方向。在社会模拟中,网络可以分为线下网络和线上网络两种。线下网络:离线网络通过面对面交流形成联系。一些研究模拟虚拟世界中的交互,随机或预定义连接个体;另一些通过外部算法估计社会关系。大规模研究中,个体间的网络关系有时会被忽略,或仅提供粗略的社区统计信息来代替详细的邻居信息。线上网络:在线网络通过社交平台形成联系。部分研究使用随机初始化或合成数据构建网络,另一些则抓取真实社交媒体数据。由于获取真实关系困难,最近的研究结合真实与合成数据,或基于相似性连接个体。 社会影响(Social Influence):社会影响包含行为主体对他人产生的影响,以及在互动过程中受到他人的影响。社会影响因其接收者特征不同而异,许多研究通过结合个体概要、记忆联合建模来体现这种差异,也有工作引入认知偏差和规范反思机制以增强信息理解和反应。社会影响也因发出者的身份、地位和声誉而异,少数个体往往主导了大部分影响力,已有研究通过建模意见领袖、社会印象记忆等关系信息来细化这个方面。 结果(Outcome):社会涌现表明,集体行为或现象并非个体行为的简单线性叠加。互动结果可分为可度量的宏观结果(如投票或公众意见)和定性的社会现象。可度量的宏观统计结果:宏观统计结果是许多研究的重点,部分工作通过直接计算个体选择的总和或平均值来简化社会动态,而另一些则通过多轮互动分析结果变化。社会现象和社会规范:社会现象和形成的社会规范也是社会互动的重要产物,目前通过计算附加指标或观察主要指标的趋势或通过一些案例研究来讨论这类结果。
广义经济学:经济学中的模拟分析研究个体在资源分配和竞争中的决策行为,探讨经济激励、市场规则和资源约束对决策的影响,以及群体互动如何影响经济趋势。一些研究关注博弈论,探索小规模群体中智能体之间的复杂互动,涉及信任、逻辑推理、理性决策、合作倾向等;一些研究使用智能体模拟经济行为,研究宏观经济趋势、资源分配、疾病传播和失业率变化等。 社会学与政治学:社会模拟在社会学和政治学中广泛应用,旨在通过智能体模拟人类行为,为预测群体意见、验证理论和假设提供支持。一些工作关注民意调查,在选举预测、公关危机管理方面均有应用;另一些研究观察个体或组织行为,在沙盒环境中模拟社会互动,验证特定场景下的理论,如党派群体智慧、组织行为和人格演变。 在线平台:在线平台是研究数字环境中的复杂社会现象的重要场所。这些平台,包括社交媒体和在线社区,允许智能体模拟现实世界中的互动,研究舆论形成、信息传播和集体行为等动态。一些研究通过模拟Twitter、微博等社交媒体平台上的互动,分析信息传播和舆论变化,并越来越关注合成数据和大规模高效模拟平台的搭建。另一些工作模拟推荐平台中的用户响应,以改进推荐算法,通过个性化行为和学习机制提高推荐准确性。
微观层级评估:微观层级评估关注社会模拟中个体的模拟有效性。最初,研究通过评估智能体与人类行为的相似度进行主观评估,后续则发展出如党派偏见和人类相似度指数等指标。对于现实场景的模拟,研究设计了自动化指标,通过与实证数据对比,提供更客观的评估。 宏观层级评估:宏观结果的评估关注模拟中的集体结果与现实世界的一致性,尤其是在传播规模和集体意见等方面。除了直接观察以外,一些量化指标,如拟合参数和相关系数,也被引入来客观衡量差异。 系统层级评估:系统层面评估关注的是模拟系统的整体性能,而不关心具体模拟的内容,包括计算效率、资源消耗和系统的可扩展性等。
研究趋势
扫描二维码添加小助手微信