AgentSense：基于多样化交互场景的智能体社交智能评测基准

创业 2024-11-27 08:22 北京

本文介绍了 AgentSense，一项专为多样且复杂的社交环境设计的基准，用于评估大语言模型的社交智能。实验结果表明，现有的大语言模型在处理复杂的社交场景和高阶目标时仍显不足。深入分析揭示了影响评估结果的潜在因素，并证明了 AgentSense 在鲁棒性和区分能力方面的优越表现。

论文标题：
AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios
论文链接：
https://arxiv.org/abs/2410.19346
源码链接：
https://github.com/ljcleo/agent_sense

一、引言

1.1 什么是社交智能？

左：低社交智能--导致对方没有答应提供帮助；右：高社交智能--达到了让师兄帮忙的社交目标。

“生活就像一场戏剧，每个人都是舞台上的演员。”——《拟剧论》
社交智能，即在互动中达成复杂社交目标的能力。如上图所示，在同一个社交场景中，高社交智能的人往往能达到自己的社交目标，且能考虑他人的想法，而低社交智能的人则可能无法完成自己的目标。
戈夫曼的拟剧论将社会交互概念化为角色扮演。人们在不同的社会场合扮演不同的角色，并根据社会规范和期望来调整自己的行为。在学校中，人们扮演老师与学生，形成了课堂这样的场景；在家庭中，人们扮演家庭成员，才形成家庭聚会这样的场景。

1.2 大模型的社交智能

图1：具有挑战性但现实的社会场景——一个家庭聚会和办公室谈话，其中的角色由ChatGPT驱动。

最近，大语言模型（LLMs）被越来越多地用于开发能够模拟人类行为的自主智能体。大多数研究通常假设这些大模型智能体具备社交智能。然而，尽管LLMs在某些场景下能够生成类人的反应，其是否真正能够应对社交互动的复杂性仍然存疑。从图1可以看出，虽然对话可以顺利进行，但Emily无法在家庭聚会中实现她的目标，也无法在办公室环境中推断出Jordan的想法。

此前关于大模型社交智能的研究多依赖静态、非交互式测试，主要评估社交情境的常识推理，未能反映社交互动的动态性。尽管近期提出了一些动态、目标导向的基准，但仍面临三大局限：（1）缺乏场景多样性：以自上而下的方式手动构建社会场景，只能获得有限的、常见的社交目标；（2）场景复杂性不足：通常限制在两个参与者的单一目标互动，简化了真实的社交情境；（3）观察视角单一：主要评估目标的达成，忽视了对他人信息的推断能力。

受戈夫曼的拟剧论启发，我们可以搭建不同的虚拟社交场景，观察智能体在这些场景中进行角色扮演、实现社交目标的能力，从而评估其社交智能。

1.3 更全面的社交智能评测框架-AgentSense

拟剧论引导的评测框架：我们提出了AgentSense，一个基于交互场景的大模型智能体社交智能评测基准。受戈夫曼的拟剧论启发，我们通过构建大量的社交场景来观察智能体在不同场景进行角色扮演、实现社交目标的能力；
基于剧本的多样性场景建构：我们采用了自下而上的方法，从大量剧本中自动抽取社交场景，获得了245个场景模板和1,225个场景，涵盖了ERG理论中的各种目标（从低级的生存目标到高级的成长目标），能够全面评测社交智能；
多维度的社交智能衡量：我们让智能体在交互式环境中进行多轮交互，并从两个方面观察其社交智能：(1) 目标完成：智能体是否成功实现了其社交目标？(2) 隐含信息推理：智能体能否准确推测他人的私有信息？我们通过采访和选择题评测这些能力，并提出PSI指标来评估智能体对角色画像的敏感性。

二、AgentSense Benchmark 构建

2.1 概览

图2：AgentSense的整体框架。

AgentSense 旨在提供一个具有更高多样性和复杂性的现实社交智能基准。根据拟剧论，我们提出了如图 2 所示的整体框架。首先，我们从剧本中构建社交场景，然后让智能体在场景中交互，最后根据交互结果对目标完成和私有信息推理进行评测。其中涉及到的一些概念包括：

场景：AgentSense的核心组件是社交场景集合，用于引导和评估智能体之间的社交互动，社交场景有两个关键组成部分：（1）社交目标：即智能体旨在实现的目标，例如解决问题或建立关系。在社交目标的引导下，智能体主动参与社会互动。（2）私有信息：即只有智能体自己知道，而其他人不知道的信息。智能体需要在不直接询问他人的前提下推断他人的私有信息，这组成了社交互动中的被动推理。总体而言，智能体的社会智能反映在其实现社会目标并同时在保护隐私的前提下推理私有信息的能力上。
场景模板：场景模板是一个基本的（与具体角色无关的）场景，例如一个家庭聚会。剧本中的社交场景总是包含一组固定角色，从而导致其缺少多样性。而一个社交场景实际上是可以由多种角色参与的。为此，我们移除了场景中的不相关信息，并保留背景信息和预定义的角色槽，可以通过满足模板约束的合成角色来填充槽从而实例化多个场景。

2.2 从剧本到社交场景的数据构建方案

benchmark构造的流程大致可以分为模板数据构建和模板实例化两个方面。我们首先从剧本中抽取出抽象化的模板数据，再基于合成的用户画像数据替换模板中的人物，完成模板实例化。

图3：场景模板构建pipeline（使用Python和GPT-4o自动化）: (A) 场景抽取：将剧本切分成scenes和scenarios (1)，并总结其背景和描述 (2)，合并为可以进行角色扮演的描述性背景 (3)。(B) 社交目标抽取：抽取每个角色的社会目标 (4)，并通过改写整个场景 (5)和重写/删除无效目标 (6)来修改它们。(C) 私有信息抽取：判断场景内是否有私有信息并进行抽取 (7)；如果是，则将私有信息抽取为QA对 (8)，并生成私有信息记录 (9)和评测问题 (10)。(D) 数据泄露处理及模板生成：删除与特定剧集情节相关的元素，并将角色替换为可填充的槽（11）。

模板数据构建

模板数据的构建流程大致可分为以下几步：

场景提取（Scenario Construction）：将剧本分割成多个场景，并为每个场景生成背景描述。
社交目标提取（Social Goal Extraction）：提取每个角色的社交目标，并进行调整以减少目标间的依赖性，确保目标的清晰性和可实现性。
私有信息提取（Private Information Extractiion）：确定场景中是否存在需要推理的私有信息，并提取这些问题和答案对，作为角色的私有信息和其他人推理的依据。
数据泄露缓解与模板生成（Leakage Mitigation and Template Generation）：通过替换特定剧集的元素和角色，减少数据泄露的风险，同时保持上下文的连贯性。

模板实例化

为了解决剧本中固定角色群导致的多样性不足问题，我们通过实例化多个合成角色来丰富场景。一个简单的方法是随机替换原始角色，但这样做可能会导致不切实际的情况，比如两个五十岁的学生出现在中学里。因此，我们根据场景的约束动态生成智能体。首先，我们提取原始角色的属性和关系。然后，我们将这些关系转化为帮助定义智能体人口统计特征的替换规则。最后，我们用遵守这些约束的智能体替换原始角色。在进行数据泄露缓解后，我们还进行了预测试，以确保场景保持匿名。

2.3 交互模拟

在每个场景中，向智能体提供场景背景信息、个人画像信息和相应的社交目标（及可能有的私有信息），如图2中间所示。这种设置激励了智能体与其他智能体进行社交，通过多轮对话进行交互，同时也可以通过语言表达表情和动作。对话随机从某一个智能体打招呼开始，直到预定义的最大轮次-15（剧本场景中的平均对话轮次）。模拟完成后，生成的对话历史将被用于评测每个智能体的社会目标是否完成。

2.4 综合多维度能力的评测方案

主动推进能力—目标完成度

由于社交目标可能具有主观性，我们从三个不同的角度来判断目标是否完成：

自我评估（Self）：询问智能体在与他人互动后是否实现了自己的目标。他人评估（Other）：询问场景中的其他智能体，目标智能体是否实现了特定的目标。
外部评估（External）：向第三方模型提供聊天记录，并询问智能体是否实现了自己的社交目标，要求受访者以“是”（目标完成）或“否”回答。我们取所有角色目标的平均值来衡量智能体的整体目标完成水平。

被动推理能力—私有信息评测准确率

每个角色的私有信息对应一个多项选择评估问题。为了评估智能体的信息推理能力，我们向其展示与场景中其他智能体的私有信息相关的问题，并计算当前智能体在这些问题上的平均准确率（Acc.），以确定智能体在信息推理上的得分。

社交能力稳定性—用户画像敏感性指数

在角色丰富化后，每个模板生成多个场景。通过引入多样化的角色，我们不仅丰富了场景，还洞察了社交智能在模拟不同角色时的稳定性。因此，我们提出了角色画像敏感性指数（PSI）。我们计算共享相同模板的场景的目标/信息指标的标准差（std），并计算所有模板的平均标准差作为PSI。PSI越低，表明社交智能对角色画像变化越不敏感。

三、数据描述

我们从互联网电影剧本数据库（IMSDb）收集剧本，使用GPT-4o进行场景划分，并且过滤掉对话轮次少，角色之间缺乏积极互动的场景，总共收集到了1,300个场景、12,401轮对话和114,834个tokens。

对模版数据进行人工验证，确保基准的质量

对于经由自动化流程构造的模版数据，我们进行了多轮人工验证，确保模板数据中的社交目标以及私有信息能确保评测基准的质量。对于社会目标，我们主要验证：（1）目标是否可以被实现；（2）目标是否足够清晰，能够被观察、评估。对于私有信息，我们关注：（1）私有信息是否在背景信息或其他人的信息中被泄露；（2）私有信息对应的评测问题是否能够被回答。

基于ERG理论归类社交目标，并为角色设定广泛、丰富的属性

最终我们获得了245个有效模板，每个模板实例化了5个场景，每个场景都有满足特定场景约束的角色。最终形成的1,225个场景中，有54%发生在个人领域，37%在小社会，9%在大社会，且有363个场景包含涉及私有信息的角色。

我们使用ERG理论，将社交目标分为三个层次需求：存在、关系和成长，并确定了八大社交目标，如下：

存在需求：信息提供和信息获取。
关系需求：关系建立、关系维持和身份认同。
成长需求：竞争、合作和解决冲突。

我们的数据集包含上述所有类型社交目标，且三个层次的社交目标的数量分布也呈现出了现实生活中的模式：高层级目标较少，低层级目标占多数。

最终的数据集包含859个角色资料，366种职业。这些角色表现出广泛的属性，强调了性别、年龄、职业、五大、道德价值观、个性和决策风格的多样性。

图4：(a) 用ERG对角色目标分类后的场景类型分布，一个场景包含多个目标；(b) 智能体的道德价值观分布，出现次数少于30的被分为Others; (c) 智能体的大五人格分布。

3.1 实验设定

智能体模型

对于单一模型交互我们评估了Llama-2-7b/13b/70b-Chat、Llama-3-8b/70b-Instruct、Mistral-7b-Instruct-v0.3、Qwen2.5-7b/14b/72b-Chat、GPT-3.5-Turbo和GPT-4o。对于不同模型之间的交互和进一步分析，我们选择了Llama-3-8b、Qwen2.5-14b、GPT-3.5-turbo和GPT-4o进行实验。

裁判模型

我们随机抽取100个模拟场景，共包含584个社会目标评估问题，并人工验证对话历史是否表明目标已经实现。使用人类标注作为真实标签，我们计算了充当裁判的各种模型的准确性，最终选择GPT-4o、Qwen2.5-72b和Llama-3-70b作为裁判模型。此外，我们引入了一个多数投票机制，结合这些模型创建了一个专家混合模型作为另一个裁判。

实现细节

我们使用vLLM来部署所有开源模型：在NVIDIA A100上部署Qwen2.5-72b和Llama-3-70b，在NVIDIA RTX 4090上部署其他模型；我们利用AutoGen来搭建交互和评测框架。为了鼓励多样性，我们将智能体模型的温度设置为1，而为了确保评估的稳定性，将裁判模型的温度设置为0，为所有模型设置了max_new_token为128。

3.2 实验结果

单一模型交互

不同模型的社交智能存在显著差异：GPT-4o在整体表现中处于领先地位，Qwen系列模型，尤其是Qwen2.5-14b在目标达成和信息推理两方面都表现强劲；Llama-2系列模型整体表现较差，Llama-3系列模型虽然相比Llama-2系列有所改进，但仍然未达到理想的性能水平。Llama-2 在维持角色、推进对话和产生有效回复方面都存在着不足，因此难以处理复杂社交场景；在社会智力的稳定性方面，排除温度参数带来的不确定性，PSI的结果表明，社会智力较高的模型，如GPT-4o和Qwen，对角色变化的敏感性也较低。总体而言，不同模型的社交智能被AgentSense很好地区分开来。
目标评测存在偏见：在目标完成的评估中，Llama-2-7b和Mistral-7b模型倾向于高估自身表现，而评估模型往往更偏好与其相同系列的模型。具体而言，Qwen2.5-72b偏好Qwen系列模型，GPT-4o偏好GPT-4o，但Llama3-70b在自我和他人评估中则相对保守。这进一步说明了需要引入多个视角（self, other, judge）、多个裁判(judge majority) 进行评测的必要性。

不同模型交互

图5：不同模型进行交互得到的judge majority 分数。

不同模型驱动的智能体交互的情况又是怎么样的呢？考虑到AgentSense的场景中可能有两个以上的参与者，我们使用GPT-4o根据每个智能体的社会目标将其标记为发送者（Sender）或接收者（Receiver），发送者往往倾向于传递和分享，而接收者则更专注与理解和响应。通过图5，我们发现：对于所有模型而言，与较弱的模型交互都会损害性能，尤其是当发送者是更弱的模型时。这是因为对于较弱模型而言，充当发送者比充当接收者更难，因为发送者在社交互动中往往需要担任更主动的角色。

3.3 进一步分析

1. 大模型擅长/不擅长怎样的目标？

我们根据ERG理论将所有社会目标分为8种类型，图6说明了不同模型中每种目标类型的平均目标完成分数。总体而言，所有大模型都擅长关系管理和合作类型的目标；与Llama-3-8b等小型模型相比，Qwen2.5-14b和GPT-4o等大型模型在信息交换和身份识别类型的目标上取得了显著提升。然而，在竞争和冲突解决等其他目标上仍有改进的空间，这些也是llm往往高估其进展的目标。我们还比较了不同场景类型、交互轮数和参与者下的目标完成分数，我们在这些因素方面观察到较少或没有显著差异。

2. 猜透意图和保守秘密哪个更加困难？

我们进一步考察了不同模型之间被动推理的差异。在交互场景中，拥有私有信息的智能体参与一场游戏，防御者的目标是保持其信息的机密性，而攻击者则试图揭开它，因而这两种角色的定义如下：

防御者：他们需要防止其隐私信息的泄露。其有效性与攻击者推断该信息的成功率成反比，即1减去攻击者的推断成功率。
攻击者：他们需要获取他人的隐私信息。其能力与它们自己的推理成功率成正比。

我们的测试基准揭露了防御者和攻击者的角色代表了不同的能力。在交互过程中，模型可能同时充当攻击者和防御者。为了评估模型在这些角色中的能力，我们分析了它们交互的结果，如下图所示，大多数模型缺乏防御能力，经常泄露秘密并在不同场景中表现不稳定。其中，GPT-4o既擅长保密，又擅长被动推理；Qwen2.5-14b表现出了较强的进攻型，善于推断信息；而Llama-3-8b则更保守，更善于保守秘密。

图7：作为攻击者和防御者的模型表现。

3. 什么样的场景对角色画像更加敏感？

为了丰富场景，我们通过用合成的智能体来替换剧本中的原始角色，因此，我们在此探讨智能体的角色画像对社交智能的影响。我们使用卡方检验来识别异常模板（p值=0.05），其中，异常模板指在同一模型的所有模板表现中评价指标的方差具有显著性差异的模板。结果表明，在92.6％以上的场景下，基于上述工作流的角色替换满足零假设（即没有显著差异）。

我们对另外这7.4％差异显著的异常场景进行了人工评估，以定位影响场景鲁棒性的关键因素：

一些社会目标涉及到违背普世价值的意见或行为（如禁止吸烟和情绪爆发），这可能受到智能体的个性和大模型偏好对齐能力的影响；
一些场景需要详细的个人层面信息，使得一般的替换流程失效，特别是涉及多个角色的情感问题。

四、结论

本文提出了AgentSense，一个在多样化和具有挑战性的社会环境中评估LLM社交智能的基准。广泛的实验表明，当前的大语言模型在复杂的社会场景和高层次目标方面很困难。进一步的分析验证了评估过程中潜在的影响因素，展示了AgentSense的鲁棒性和区分能力。

来源：公众号【复旦DISC】

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650515800&idx=2&sn=c671f0f1c6c143e171bc9dac8d657e42

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

AgentSense：基于多样化交互场景的智能体社交智能评测基准

Talk预告｜MBZUAI曾聪：DALD-无需黑盒信息增强LLM检测器

NeurIPS 2024 | WKM：增强智能体规划的世界知识模型

将门创新伙伴 | 2024 Honda Digital Day圆满落幕：深化创新合作，共塑智能未来

活动报名 | 第五届数据智能与知识服务研讨会（DIKS2024）：人工智能促进科研创新和产业变革

ECCV 2024 | 扩散模型持续跨界，UC伯克利等单位提出基于扩散模型的新数据挖掘工具

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

Talk预告｜NUS余昭辰&PKU张子翔：大模型推理与多模态扩散模型的协同作用

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉