成果｜大语言模型只懂自然语言？AutoForm通过非自然语言形式提升智能体推理与沟通效率

学术 2024-03-13 14:14 北京

自然语言作为人类交流的基本媒介，自然而然成为了大语言模型在执行 CoT (Chain-of-Thought) 推理和 Multi-Agent 沟通等任务时的主要形式。然而，对于大语言模型来说，自然语言固有的模糊性和冗余性可能使其并非最优的方式。鉴于此，我组的工作对于大语言模型能否通过采用非自然语言形式更有效地执行推理任务和 Multi-Agent 沟通展开了探索。通过实验研究，我们展示了大语言模型能够根据具体任务需求选择更适宜的语言形式，从而提升推理性能，并在保证沟通效果的同时，显著减少所需的 Token 数量。

论文信息

➤ 论文地址

🔗 https://arxiv.org/abs/2402.18439

➤ GitHub链接

🔗 https://github.com/thunlp/AutoForm

方法介绍

在一般的 CoT (Chain-of-Thought) 中，LLM 在生成答案过程中的 “Thought” 往往为自然语言。为了使得 LLM 使用的语言更有利于解决具体的任务，我们采用了一种简单而有效的 prompt 机制，让 LLM 选择和使用最有利于具体任务的语言格式，我们将这一 prompting 机制称为 AutoForm。

AutoForm流程概要图

如上图所示，通过使用 AutoForm 的方法（一种 prompt 机制），LLM 会根据任务选择结构化的语言格式，从而提升 Single-LLM 的推断准确率（左侧）和 Multi-Agent 的交流效率（右侧）。

Cot 的 prompt 和 AutoForm 的 prompt 对比

实验设置

➤ Single-LLM

为了更好的体现出 AutoForm 对 Single-LLM 多个方面推理能力的影响，我们在多个数据集上做了对照实验：Logic Grid Puzzle（逻辑推理）、Information Essentiality（信息获取）、Minute Mysteries QA（因果推理）、AQuA（数学推理）、Coin Flip（符号推理）。

➤ Multi-LLM

进行任务解决的两个 Agent 有不同的知识储备，为了得到最终正确的答案，Agent 之间必须通过交流来获得更多的背景知识并做推理。我们在 Hotpot QA、Wiki Hop 和 Narrative QA 三个数据集上进行该实验，并将涉及答案的 context 随机分散给 2 个 Agent，要求他们通过沟通最终给出答案。

实验结果

为了提升鲁棒性，我们利用多种大模型，包括 GPT-3.5, GPT-4 以及 Gemini Pro 进行实验。

单LLM使用基础的CoT与使用AutoForm的推理效果对比

从单模型推理任务结果可知，AutoForm 对于不同模型在不同数据集上都有着较为明显的提升，这表示不同模型都可以通过自行决定在 CoT 中使用任务更匹配的形式来实现更好的推理效果。

多Agent进行沟通，最终给出答案的RougeL得分与生成Token数对比

上图展示了 Multi-Agent 的实验结果，对于不同的模型搭配，AutoForm 都能在维持或取得更好的沟通效果的情况下，达到显著的 Token 数量减少。特别地，在 Hotpot QA 上，AutoForm 减少了72% 的 Token 数量，表明模型能够有效使用更精简准确的语言形式进行沟通。

实验分析

在实验分析阶段，我们尝试回答 5 个问题：

LLM 推理时，选择了什么样的非自然语言形式？
LLM 可以基于一个任务的几个样例，给出一个该任务通用的更好的非自然语言形式吗？
一个 LLM 决定的非自然语言形式，可以迁移给其它 LLM 来提升效果吗？
Multi-Agent 沟通中使用的非自然语言有什么特征？
Multi-Agent 沟通中模型自主决定的语言与传统的 Agent 沟通语言是否存在相似性？

以下是针对每个问题的分析——

➤ LLM 推理时，选择了什么样的非自然语言形式？

我们统计了使用 AutoForm 时，模型选择的语言格式，得到如下结果:

不同模型选择不同语言格式的占比

不同任务上所有模型所选的非自然语言格式统计

上图展示了在不同的任务数据集上，大模型选择的语言格式的情况，可以发现语言格式的选择和任务有着较强的关联性。

➤ LLM 可以基于一个任务的几个样例，给出一个该任务通用的更好的非自然语言形式吗？

为了探究 LLM 是否可以针对任务给出一个普适的语言形式，我们设计了 "two-step AutoForm" 实验，让 LLM 先决定语言格式，然后再通过 Cot 的方法来解决问题。

实验采取了两个不同的设置：

➤ Instance-Based： LLM需要根据当前的具体的输入决定出格式

➤ Task-Based： 在决定格式时，给出该类任务的5个例子，决定格式后再给出需要解决的输入问题，并利用之前决定的格式来推理。

模型基于当前输入决定非自然语言格式 (Instance-Based) 与基于5个该任务的输入决定格式 (Task-Based) 的效果比较

上图展示了实验的结果，Average 列的下标展示了 CoT 的效果提升。发现 GPT-3.5 和 Gemini Pro 基于任务类别给出格式都能获得准确率上的提升，对 GPT-4 而言，两种方法效果差异不大，说明 GPT-4 根据单个输入即可决定出较为通用的任务格式。

➤ 一个LLM决定的非自然语言形式，可以迁移给其他LLM吗来提升效果吗？

为了探究上一节中不同模型在 Task-Based 设定下决定的语言格式是否可以在不同 LLM 之间互通，我们让一种 LLM 先决定格式，随后让另一个 LLM 做推理，得到如下结果：

非自然语言格式在模型间迁移效果

结果表明，可以进行互通，但是正确率相比整个过程都由同一种 LLM 完成更低。特别地，在 Coin Flip 上将 GPT-4 决定的格式迁移给 GPT-3.5 和 Gemini Pro，相较于使用两个模型各自决定的格式，分别提升了 20.2% 和 26.8%。而当把 GPT-3.5 的格式迁移给 GPT-4 时，正确率相比起 GPT-4 使用自身格式而言则略低一些。

➤ Multi-Agent 沟通中使用的非自然语言有什么特征？

我们对 Multi-Agent 在沟通中自主决定的语言形式进行特征分析，总结出两大特点：

➤ 语言结构化

在交流时，语言往往呈现出很好的结构性，对于信息交流效率有着很好的提升。并且可以有效的减少冗余。

➤ 内容简洁化

语言风格呈现简洁化的特征，如省略掉情感表达的词句或一些不必要的连接词，可以起到减少 Token 数，使得信息交换速度加快的作用。

Multi-Agent 正常沟通(上半部分)与使用 AutoForm 进行沟通(下半部分)的示意图

➤ Multi-Agent 沟通中模型自主决定的语言与传统的 Agent 沟通语言是否存在相似性？

实验发现，Multi-Agent 在使用 AutoForm 方法进行交流时，有时候会选择与传统的 Agent 交流语言相似的情况（如90年代提出的KQML、FIPA-ACL等）,为了探究这一现象，我们使用 GPT-4 进行实验，探究其使用 KQML 和 JSON 格式进行交流与使用 AutoForm 进行交流的区别。

使用AutoForm与使用KQML格式、JSON形态的KQML格式得到的沟通效果对比

结果表明，使用 AutoForm 的方法具有双重作用：一方面保证回答问题的准确率；另一方面有效减少 Token 数量，节省计算资源。

总结

此成果中，我组展示了使用非自然语言来代替自然语言，能够一定程度上提升 LLM 的推理能力，促进 Multi-Agent 的交流。这些发现促进了我们对自然语言之外的 LLM 能力的理解，有助于增强 LLM 的推理和 Agent 间的通信。

作者简介

/ 陈纬泽 /

论文主要作者

清华大学计算机系博士生，研究方向包括基于大语言模型的智能体与多智能体系统。开发了AgentVerse，旨在为多智能体交互提供便捷高效的环境构建框架；提出 ChatEval，一个通过多智能体辩论来进行模型评估的创新系统等。

/ 袁辰飞 /

论文主要作者

清华大学计算机系本科生，在自然语言处理尤其是多智能体系统方面有一定研究经验，曾参与 AgentVerse 开发工作。主要关注多智能体系统的应用与优化，目标是开发稳定、高效、安全的多智能体系统以应对复杂的实际问题。

/ 原嘉锐 /

论文主要作者

清华大学计算机系本科生，研究兴趣包括群体智能、强化学习。

关于我们

清华大学自然语言处理与社会人文计算实验室（TsinghuaNLP）成立于 20 世纪七十年代末，是国内开展自然语言处理研究最早、深具影响力的科研单位，也是中国中文信息学会计算语言学专业委员会及中国人工智能学会因果与不确定性人工智能专业委员会的挂靠单位。实验室在学术总体带头人孙茂松教授及学术方向带头人刘洋教授、刘知远副教授的带领下，围绕以中文为核心的自然语言处理，在语言大模型、跨模态大模型、中文信息处理、机器翻译、知识图谱、智慧教育、社会人文和艺术计算等方面开展系统深入的研究，在国内外具有较大的学术影响。近年来，实验室承担了国家 973 项目、国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务，并与腾讯、华为、搜狗等企业建立密切的学术合作关系。

Website：http://nlp.csai.tsinghua.edu.cn/

Email：thunlp@163.com

GitHub：https://github.com/thunlp

https://github.com/OpenBMB

Twitter：https://twitter.com/TsinghuaNLP

THUNLP 长期开放招聘｜含实习

🎓 科研团队：七大研究方向 ➤ 点击阅读原文

模块化大模型
数据-模型孪生技术
工具学习与自主智能体
大模型群体智能
大模型对齐
多模态大模型
大模型训练动力学

💻 工程师团队 ➤ 点击阅读原文

大模型方向研究员
大模型算法工程师
多模态数据工程师
NLP算法工程师
大数据基础架构高级工程师
前端工程师
后端工程师
全栈工程师

TsinghuaNLP

清华大学自然语言处理与社会人文计算实验室，是中国中文信息学会计算语言专业委员会和中国人工智能学会不确定性专业委员会的挂靠单位。负责人为清华大学计算机科学与技术系孙茂松教授，核心骨干为刘洋教授，刘知远副教授。

最新文章

招聘｜个性化学生成长助手“清小搭”团队实习生招募

新闻｜我组5篇论文成果被 COLING 2025 收录

新闻｜清华本科生习作集结成书《AI群星闪耀时》正式出版

成果｜打破传统轮次规则，MiniCPM-duplex双工模型助力即时交互

获奖｜我组博士毕业生陈驰学位论文入选2024年度中国中文信息学会“博士学位论文激励计划”

获奖｜我组与幂律智能、清华大学法学院联合研究成果荣获2024“钱伟长中文信息处理科学技术奖”一等奖

新闻｜我组博士后研究员李霜洁顺利出站

《语言战略研究》多人谈：学术的激烈交锋会促进科技的深入发展

获奖｜我组教师刘知远获2024年北京市高校青年教学名师奖

成果｜RAGEval：实现实际场景检索增强生成系统（RAG）的“精准诊断”

招聘｜清华NLP实验室博士后招聘

招聘｜清华NLP实验室招聘工具学习与自主智能体方向科研实习生

新闻｜我组7篇论文成果被NeurIPS 2024录用

新闻｜我组7篇论文成果被 EMNLP 2024 录用

预告｜CNCC 2024技术论坛：端侧大模型

新闻｜我组师生参加 ACL 2024 学术会议

获奖｜我组荣获英特尔中国学术成就奖

成果｜LEGENT：具身智能体开放平台

新闻｜我组6篇论文成果被 COLM 2024 录用

获奖｜我组多名毕业生顺利毕业，并获多项荣誉

经典大模型公开课第二季，梦幻回归

成果｜基于深度学习的多策略增强对联自动生成方法

成果 | 智能体互联网（IoA）：编织异构智能体的协同智能网络

获奖｜我组毕业生丁宁、姚远获2024世界人工智能大会云帆奖

招聘｜清华NLP实验室诚聘大模型英才

OpenBMB × Hugging Face × THUNLP，联袂献上经典大模型课

讲座预告｜夏梦舟：训练与对齐语言模型：目标与数据管理的算法进展

成果｜Seq1F1B：节省50%显存的长文本模型流水线并行训练技术

成果｜大模型驱动的多智能体协作网络 MacNet，探究多智能体协作的Scaling Law

招聘｜清华NLP实验室招聘法律智能方向博士后及科研实习生

新闻｜我组2篇论文成果被 ACL 2024 Demo 录用

成果｜多智能体经验迭代精炼框架——实现多智能体经验动态积累以增强任务解决能力

StableToolBench：稳定的工具学习评测数据集

MiniCPM-V 2.5：登顶HuggingFace和GitHub Trending榜双榜首

成果 | CODIS：评估多模态大模型结合上下文理解图像的能力

新闻｜我组多篇论文成果被 ACL 2024 收录

预告｜CCF ADL第146期讲习班周五开讲，欢迎广大学者报名

新闻｜我组师生参加ICLR 2024学术会议

新闻｜我组6篇论文成果被 ICML 2024 收录

获奖 | 我组师生参加“吴文俊人工智能科学技术奖”颁奖典礼

清华NLP实验室招聘大模型方向博士后及研究员

预告｜CCF ADL讲习班第146期 “大模型自主智能体与群体智能”

成果 | 大模型驱动的自主智能体与群体智能

成果｜ProSparse：打造更加稀疏高效的大模型

成果 | MatPlotAgent：大模型驱动的数据可视化智能体

新闻｜我组三篇论文成果被 CVPR 2024 收录

成果｜大语言模型只懂自然语言？AutoForm通过非自然语言形式提升智能体推理与沟通效率

获奖 | 我组博士生姚远获2023年度吴文俊人工智能科学技术奖优秀博士学位论文奖

成果｜OlympiadBench: Olympiad-level 的双语、多模态的科学评测集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉