自然语言作为人类交流的基本媒介,自然而然成为了大语言模型在执行 CoT (Chain-of-Thought) 推理和 Multi-Agent 沟通等任务时的主要形式。然而,对于 大语言模型来说,自然语言固有的模糊性和冗余性可能使其并非最优的方式。鉴于此,我组的工作对于大语言模型能否通过采用非自然语言形式更有效地执行推理任务和 Multi-Agent 沟通展开了探索。通过实验研究,我们展示了大语言模型能够根据具体任务需求选择更适宜的语言形式,从而提升推理性能,并在保证沟通效果的同时,显著减少所需的 Token 数量。
论文信息
➤ 论文地址
🔗 https://arxiv.org/abs/2402.18439
➤ GitHub链接
🔗 https://github.com/thunlp/AutoForm
方法介绍
在一般的 CoT (Chain-of-Thought) 中,LLM 在生成答案过程中的 “Thought” 往往为自然语言。为了使得 LLM 使用的语言更有利于解决具体的任务,我们采用了一种简单而有效的 prompt 机制,让 LLM 选择和使用最有利于具体任务的语言格式,我们将这一 prompting 机制称为 AutoForm。
AutoForm流程概要图
如上图所示,通过使用 AutoForm 的方法(一种 prompt 机制),LLM 会根据任务选择结构化的语言格式,从而提升 Single-LLM 的推断准确率(左侧)和 Multi-Agent 的交流效率(右侧)。
Cot 的 prompt 和 AutoForm 的 prompt 对比
实验设置
➤ Single-LLM
为了更好的体现出 AutoForm 对 Single-LLM 多个方面推理能力的影响,我们在多个数据集上做了对照实验:Logic Grid Puzzle(逻辑推理)、Information Essentiality(信息获取)、Minute Mysteries QA(因果推理)、AQuA(数学推理)、Coin Flip(符号推理)。
➤ Multi-LLM
进行任务解决的两个 Agent 有不同的知识储备,为了得到最终正确的答案,Agent 之间必须通过交流来获得更多的背景知识并做推理。我们在 Hotpot QA、Wiki Hop 和 Narrative QA 三个数据集上进行该实验,并将涉及答案的 context 随机分散给 2 个 Agent,要求他们通过沟通最终给出答案。
实验结果
为了提升鲁棒性,我们利用多种大模型,包括 GPT-3.5, GPT-4 以及 Gemini Pro 进行实验。
单LLM使用基础的CoT与使用AutoForm的推理效果对比
从单模型推理任务结果可知,AutoForm 对于不同模型在不同数据集上都有着较为明显的提升,这表示不同模型都可以通过自行决定在 CoT 中使用任务更匹配的形式来实现更好的推理效果。
多Agent进行沟通,最终给出答案的RougeL得分与生成Token数对比
上图展示了 Multi-Agent 的实验结果,对于不同的模型搭配,AutoForm 都能在维持或取得更好的沟通效果的情况下,达到显著的 Token 数量减少。特别地,在 Hotpot QA 上,AutoForm 减少了72% 的 Token 数量,表明模型能够有效使用更精简准确的语言形式进行沟通。
实验分析
在实验分析阶段,我们尝试回答 5 个问题:
LLM 推理时,选择了什么样的非自然语言形式?
LLM 可以基于一个任务的几个样例,给出一个该任务通用的更好的非自然语言形式吗?
一个 LLM 决定的非自然语言形式,可以迁移给其它 LLM 来提升效果吗?
Multi-Agent 沟通中使用的非自然语言有什么特征?
Multi-Agent 沟通中模型自主决定的语言与传统的 Agent 沟通语言是否存在相似性?
以下是针对每个问题的分析——
➤ LLM 推理时,选择了什么样的非自然语言形式?
我们统计了使用 AutoForm 时,模型选择的语言格式,得到如下结果:
不同模型选择不同语言格式的占比
不同任务上所有模型所选的非自然语言格式统计
上图展示了在不同的任务数据集上,大模型选择的语言格式的情况,可以发现语言格式的选择和任务有着较强的关联性。
➤ LLM 可以基于一个任务的几个样例,给出一个该任务通用的更好的非自然语言形式吗?
为了探究 LLM 是否可以针对任务给出一个普适的语言形式,我们设计了 "two-step AutoForm" 实验,让 LLM 先决定语言格式,然后再通过 Cot 的方法来解决问题。
实验采取了两个不同的设置:
➤ Instance-Based: LLM需要根据当前的具体的输入决定出格式
➤ Task-Based: 在决定格式时,给出该类任务的5个例子,决定格式后再给出需要解决的输入问题,并利用之前决定的格式来推理。
模型基于当前输入决定非自然语言格式 (Instance-Based) 与基于5个该任务的输入决定格式 (Task-Based) 的效果比较
上图展示了实验的结果,Average 列的下标展示了 CoT 的效果提升。发现 GPT-3.5 和 Gemini Pro 基于任务类别给出格式都能获得准确率上的提升,对 GPT-4 而言,两种方法效果差异不大,说明 GPT-4 根据单个输入即可决定出较为通用的任务格式。
➤ 一个LLM决定的非自然语言形式,可以迁移给其他LLM吗来提升效果吗?
为了探究上一节中不同模型在 Task-Based 设定下决定的语言格式是否可以在不同 LLM 之间互通,我们让一种 LLM 先决定格式,随后让另一个 LLM 做推理,得到如下结果:
非自然语言格式在模型间迁移效果
结果表明,可以进行互通,但是正确率相比整个过程都由同一种 LLM 完成更低。特别地,在 Coin Flip 上将 GPT-4 决定的格式迁移给 GPT-3.5 和 Gemini Pro,相较于使用两个模型各自决定的格式,分别提升了 20.2% 和 26.8%。而当把 GPT-3.5 的格式迁移给 GPT-4 时,正确率相比起 GPT-4 使用自身格式而言则略低一些。
➤ Multi-Agent 沟通中使用的非自然语言有什么特征?
我们对 Multi-Agent 在沟通中自主决定的语言形式进行特征分析,总结出两大特点:
➤ 语言结构化
在交流时,语言往往呈现出很好的结构性,对于信息交流效率有着很好的提升。并且可以有效的减少冗余。
➤ 内容简洁化
Multi-Agent 正常沟通(上半部分)与使用 AutoForm 进行沟通(下半部分)的示意图
➤ Multi-Agent 沟通中模型自主决定的语言与传统的 Agent 沟通语言是否存在相似性?
实验发现,Multi-Agent 在使用 AutoForm 方法进行交流时,有时候会选择与传统的 Agent 交流语言相似的情况(如90年代提出的KQML、FIPA-ACL等),为了探究这一现象,我们使用 GPT-4 进行实验,探究其使用 KQML 和 JSON 格式进行交流与使用 AutoForm 进行交流的区别。
使用AutoForm与使用KQML格式、JSON形态的KQML格式得到的沟通效果对比
结果表明,使用 AutoForm 的方法具有双重作用:一方面保证回答问题的准确率;另一方面有效减少 Token 数量,节省计算资源。
总结
此成果中,我组展示了使用非自然语言来代替自然语言,能够一定程度上提升 LLM 的推理能力,促进 Multi-Agent 的交流。这些发现促进了我们对自然语言之外的 LLM 能力的理解,有助于增强 LLM 的推理和 Agent 间的通信。
作者简介
/ 陈纬泽 /
论文主要作者
/ 袁辰飞 /
论文主要作者
/ 原嘉锐 /
论文主要作者
关于我们
清华大学自然语言处理与社会人文计算实验室(TsinghuaNLP)成立于 20 世纪七十年代末,是国内开展自然语言处理研究最早、深具影响力的科研单位,也是中国中文信息学会计算语言学专业委员会及中国人工智能学会因果与不确定性人工智能专业委员会的挂靠单位。实验室在学术总体带头人孙茂松教授及学术方向带头人刘洋教授、刘知远副教授的带领下,围绕以中文为核心的自然语言处理,在语言大模型、跨模态大模型、中文信息处理、机器翻译、知识图谱、智慧教育、社会人文和艺术计算等方面开展系统深入的研究,在国内外具有较大的学术影响。近年来,实验室承担了国家 973 项目、国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务,并与腾讯、华为、搜狗等企业建立密切的学术合作关系。
Website:http://nlp.csai.tsinghua.edu.cn/
Email:thunlp@163.com
GitHub:https://github.com/thunlp
https://github.com/OpenBMB
Twitter:https://twitter.com/TsinghuaNLP
THUNLP 长期开放招聘|含实习
🎓 科研团队:七大研究方向 ➤ 点击阅读原文
模块化大模型
数据-模型孪生技术
工具学习与自主智能体
大模型群体智能
大模型对齐
多模态大模型
大模型训练动力学
💻 工程师团队 ➤ 点击阅读原文
大模型方向研究员
大模型算法工程师
多模态数据工程师
NLP算法工程师
大数据基础架构高级工程师
前端工程师
后端工程师
全栈工程师