StableToolBench：稳定的工具学习评测数据集

学术 2024-05-27 17:36 北京

近年来，大型语言模型（LLMs）取得了显著进步，推动了对工具学习的探索，以应对多样化的现实世界挑战。然而，评估LLMs利用工具的能力需要大规模且稳定的基准测试。之前的研究要么依赖于规模有限的人工创造的工具，要么依赖于状态不稳定的在线API。为了解决这一问题，我组提出了StableToolBench，相关论文已被自然语言处理顶级国际会议ACL 2024录用。StableToolBench通过引入虚拟API服务器和稳定的评估系统，克服了真实API状态波动的影响。实验结果表明，StableToolBench在API状态显著变化时仍保持稳定，并通过人工评测验证了虚拟API服务器的真实性。

论文信息

➤ 论文地址

🔗 https://arxiv.org/pdf/2403.07714

➤ 项目地址

🔗 https://github.com/THUNLP-MT/StableToolBench

➤ 项目主页

🔗 https://zhichengg.github.io/stb.github.io/

ToolBench的不稳定性

ToolBench是当前被广泛认可和使用的大规模工具学习的评测数据集。为了测试ToolBench的稳定性，该论文复现了部分模型在这个基准数据集上的表现。如下图所示，随着时间的推移，所有方法的性能均显示出明显的下降趋势，这引发了对ToolBench作为基准测试工具稳定性的担忧。进一步的分析揭示，影响模型性能稳定性的一个关键因素是在线API的可访问性；在实验中，只有44.4%的API在复现过程中能够成功访问。此外，评测系统的不完善也是导致结果不稳定的一个重要原因。详细分析表明，评测逻辑中的随机因素以及使用性能较弱的GPT-3.5-Turbo进行评测所引入的不稳定性，都是不容忽视的问题。

ToolBench模型效果（通过率）复现

StableToolBench构建

➤ 虚拟API服务

为了提升API服务器的稳定性，本论文提出了一种创新的虚拟API服务器解决方案。该方案由两个核心组件构成：一个缓存系统和API模拟器。缓存系统负责存储API调用记录，它不仅囊括了训练阶段的调用数据，还涵盖了测试阶段的历史调用信息。而API模拟器则是由GPT-4-Turbo驱动，它利用API文档和真实API调用的示例作为少量样本提示（few-shot prompting），以确保模拟过程能够高度贴近API的真实行为。

在实际调用过程中，系统会首先检索缓存系统中的记录，然后尝试执行真实的API调用。如果缓存系统无法击中，且真实调用失败，系统将切换至API模拟器进行模拟操作。实验结果表明，虚拟API服务系统在基准测试中显著提高了稳定性，证明了其在提升API服务可靠性方面的有效性。

虚拟API服务

➤ 稳定的测评系统

任务可解决性筛选：为减少原始ToolBench中任务可解决性引起的不稳定性，该论文使用GPT-4、Gemini Pro和Claude 2模型投票预先筛选出不可解决的任务，以降低判断可解决性带来的不确定性。

评估指标（SoPR和SoWR）：针对ToolBench评测中的随机性，StableToolBench提出了新的SoPR和SoWR指标，完全消除了评测流程中的随机性。同时由于GPT-3.5-Turbo在工具学习评测能力上的不足，该论文采用GPT-4作为自动评估器。

稳定性评价

为了评估 StableToolBench 的稳定性，本文作者随机选择了一定比例的工具，并在运行期间手动使这些工具不可用。如下图所示，StableToolBench的运行结果表现出高度的稳定性，即使在50%的API不可用的情况下，模型性能变化依然不显著。

StableToolBench评测结果在大量工具访问失败的情况下依然保持稳定

总结

为了提高大规模工具学习评测的稳定性，本论文提出了一个基于ToolBench的稳定基准数据集——StableToolBench。这一基准数据集整合了虚拟API服务器以及改进的评测流程和评价指标。实验结果表明，StableToolBench显著提升了模型性能评估的稳定性。尽管如此，在现实世界环境的复杂多变背景下，如何构建能够真实反映世界复杂性和动态性的基准数据集，仍然是推动大型语言模型发展的一个重要挑战。

关于我们

清华大学自然语言处理与社会人文计算实验室（TsinghuaNLP）成立于 20 世纪七十年代末，是国内开展自然语言处理研究最早、深具影响力的科研单位，也是中国中文信息学会计算语言学专业委员会及中国人工智能学会因果与不确定性人工智能专业委员会的挂靠单位。实验室在学术总体带头人孙茂松教授及学术方向带头人刘洋教授、刘知远副教授的带领下，围绕以中文为核心的自然语言处理，在语言大模型、跨模态大模型、中文信息处理、机器翻译、知识图谱、智慧教育、社会人文和艺术计算等方面开展系统深入的研究，在国内外具有较大的学术影响。近年来，实验室承担了国家 973 项目、国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务，并与腾讯、华为、搜狗等企业建立密切的学术合作关系。

Website：http://nlp.csai.tsinghua.edu.cn/

Email：thunlp@163.com

GitHub：https://github.com/thunlp

https://github.com/OpenBMB

Twitter：https://twitter.com/TsinghuaNLP

THUNLP 长期开放招聘

清华大学自然语言处理与社会人文计算实验室，是中国中文信息学会计算语言专业委员会和中国人工智能学会不确定性专业委员会的挂靠单位。负责人为清华大学计算机科学与技术系孙茂松教授，核心骨干为刘洋教授，刘知远副教授。

最新文章

招聘｜个性化学生成长助手“清小搭”团队实习生招募

新闻｜我组5篇论文成果被 COLING 2025 收录

新闻｜清华本科生习作集结成书《AI群星闪耀时》正式出版

成果｜打破传统轮次规则，MiniCPM-duplex双工模型助力即时交互

获奖｜我组博士毕业生陈驰学位论文入选2024年度中国中文信息学会“博士学位论文激励计划”

获奖｜我组与幂律智能、清华大学法学院联合研究成果荣获2024“钱伟长中文信息处理科学技术奖”一等奖

新闻｜我组博士后研究员李霜洁顺利出站

《语言战略研究》多人谈：学术的激烈交锋会促进科技的深入发展

获奖｜我组教师刘知远获2024年北京市高校青年教学名师奖

成果｜RAGEval：实现实际场景检索增强生成系统（RAG）的“精准诊断”

招聘｜清华NLP实验室博士后招聘

招聘｜清华NLP实验室招聘工具学习与自主智能体方向科研实习生

新闻｜我组7篇论文成果被NeurIPS 2024录用

新闻｜我组7篇论文成果被 EMNLP 2024 录用

预告｜CNCC 2024技术论坛：端侧大模型

新闻｜我组师生参加 ACL 2024 学术会议

获奖｜我组荣获英特尔中国学术成就奖

成果｜LEGENT：具身智能体开放平台

新闻｜我组6篇论文成果被 COLM 2024 录用

获奖｜我组多名毕业生顺利毕业，并获多项荣誉

经典大模型公开课第二季，梦幻回归

成果｜基于深度学习的多策略增强对联自动生成方法

成果 | 智能体互联网（IoA）：编织异构智能体的协同智能网络

获奖｜我组毕业生丁宁、姚远获2024世界人工智能大会云帆奖

招聘｜清华NLP实验室诚聘大模型英才

OpenBMB × Hugging Face × THUNLP，联袂献上经典大模型课

讲座预告｜夏梦舟：训练与对齐语言模型：目标与数据管理的算法进展

成果｜Seq1F1B：节省50%显存的长文本模型流水线并行训练技术

成果｜大模型驱动的多智能体协作网络 MacNet，探究多智能体协作的Scaling Law

招聘｜清华NLP实验室招聘法律智能方向博士后及科研实习生

新闻｜我组2篇论文成果被 ACL 2024 Demo 录用

成果｜多智能体经验迭代精炼框架——实现多智能体经验动态积累以增强任务解决能力

StableToolBench：稳定的工具学习评测数据集

MiniCPM-V 2.5：登顶HuggingFace和GitHub Trending榜双榜首

成果 | CODIS：评估多模态大模型结合上下文理解图像的能力

新闻｜我组多篇论文成果被 ACL 2024 收录

预告｜CCF ADL第146期讲习班周五开讲，欢迎广大学者报名

新闻｜我组师生参加ICLR 2024学术会议

新闻｜我组6篇论文成果被 ICML 2024 收录

获奖 | 我组师生参加“吴文俊人工智能科学技术奖”颁奖典礼

清华NLP实验室招聘大模型方向博士后及研究员

预告｜CCF ADL讲习班第146期 “大模型自主智能体与群体智能”

成果 | 大模型驱动的自主智能体与群体智能

成果｜ProSparse：打造更加稀疏高效的大模型

成果 | MatPlotAgent：大模型驱动的数据可视化智能体

新闻｜我组三篇论文成果被 CVPR 2024 收录

成果｜大语言模型只懂自然语言？AutoForm通过非自然语言形式提升智能体推理与沟通效率

获奖 | 我组博士生姚远获2023年度吴文俊人工智能科学技术奖优秀博士学位论文奖

成果｜OlympiadBench: Olympiad-level 的双语、多模态的科学评测集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉