StableToolBench:稳定的工具学习评测数据集

学术   2024-05-27 17:36   北京  

近年来,大型语言模型(LLMs)取得了显著进步,推动了对工具学习的探索,以应对多样化的现实世界挑战。然而,评估LLMs利用工具的能力需要大规模且稳定的基准测试。之前的研究要么依赖于规模有限的人工创造的工具,要么依赖于状态不稳定的在线API。为了解决这一问题,我组提出了StableToolBench,相关论文已被自然语言处理顶级国际会议ACL 2024录用。StableToolBench通过引入虚拟API服务器和稳定的评估系统,克服了真实API状态波动的影响。实验结果表明,StableToolBench在API状态显著变化时仍保持稳定,并通过人工评测验证了虚拟API服务器的真实性。


论文信息


 ➤  论文地址 

 🔗 https://arxiv.org/pdf/2403.07714


 ➤  项目地址 

 🔗 https://github.com/THUNLP-MT/StableToolBench


 ➤  项目主页 

 🔗 https://zhichengg.github.io/stb.github.io/



ToolBench的不稳定性

ToolBench是当前被广泛认可和使用的大规模工具学习的评测数据集。为了测试ToolBench的稳定性,该论文复现了部分模型在这个基准数据集上的表现。如下图所示,随着时间的推移,所有方法的性能均显示出明显的下降趋势,这引发了对ToolBench作为基准测试工具稳定性的担忧。进一步的分析揭示,影响模型性能稳定性的一个关键因素是在线API的可访问性;在实验中,只有44.4%的API在复现过程中能够成功访问。此外,评测系统的不完善也是导致结果不稳定的一个重要原因。详细分析表明,评测逻辑中的随机因素以及使用性能较弱的GPT-3.5-Turbo进行评测所引入的不稳定性,都是不容忽视的问题。


ToolBench模型效果(通过率)复现



StableToolBench构建

 ➤  虚拟API服务 

为了提升API服务器的稳定性,本论文提出了一种创新的虚拟API服务器解决方案。该方案由两个核心组件构成:一个缓存系统和API模拟器。缓存系统负责存储API调用记录,它不仅囊括了训练阶段的调用数据,还涵盖了测试阶段的历史调用信息。而API模拟器则是由GPT-4-Turbo驱动,它利用API文档和真实API调用的示例作为少量样本提示(few-shot prompting),以确保模拟过程能够高度贴近API的真实行为。


在实际调用过程中,系统会首先检索缓存系统中的记录,然后尝试执行真实的API调用。如果缓存系统无法击中,且真实调用失败,系统将切换至API模拟器进行模拟操作。实验结果表明,虚拟API服务系统在基准测试中显著提高了稳定性,证明了其在提升API服务可靠性方面的有效性。


虚拟API服务


 ➤  稳定的测评系统 

任务可解决性筛选:为减少原始ToolBench中任务可解决性引起的不稳定性,该论文使用GPT-4、Gemini Pro和Claude 2模型投票预先筛选出不可解决的任务,以降低判断可解决性带来的不确定性。


评估指标(SoPR和SoWR):针对ToolBench评测中的随机性,StableToolBench提出了新的SoPR和SoWR指标,完全消除了评测流程中的随机性。同时由于GPT-3.5-Turbo在工具学习评测能力上的不足,该论文采用GPT-4作为自动评估器。



稳定性评价

为了评估 StableToolBench 的稳定性,本文作者随机选择了一定比例的工具,并在运行期间手动使这些工具不可用。如下图所示,StableToolBench的运行结果表现出高度的稳定性,即使在50%的API不可用的情况下,模型性能变化依然不显著。


StableToolBench评测结果在大量工具访问失败的情况下依然保持稳定



总结

为了提高大规模工具学习评测的稳定性,本论文提出了一个基于ToolBench的稳定基准数据集——StableToolBench。这一基准数据集整合了虚拟API服务器以及改进的评测流程和评价指标。实验结果表明,StableToolBench显著提升了模型性能评估的稳定性。尽管如此,在现实世界环境的复杂多变背景下,如何构建能够真实反映世界复杂性和动态性的基准数据集,仍然是推动大型语言模型发展的一个重要挑战。




关于我们

清华大学自然语言处理与社会人文计算实验室(TsinghuaNLP)成立于 20 世纪七十年代末,是国内开展自然语言处理研究最早、深具影响力的科研单位,也是中国中文信息学会计算语言学专业委员会及中国人工智能学会因果与不确定性人工智能专业委员会的挂靠单位。实验室在学术总体带头人孙茂松教授及学术方向带头人刘洋教授刘知远副教授的带领下,围绕以中文为核心的自然语言处理,在语言大模型、跨模态大模型、中文信息处理、机器翻译、知识图谱、智慧教育、社会人文和艺术计算等方面开展系统深入的研究,在国内外具有较大的学术影响。近年来,实验室承担了国家 973 项目、国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务,并与腾讯、华为、搜狗等企业建立密切的学术合作关系。


Website:http://nlp.csai.tsinghua.edu.cn/

Email:thunlp@163.com

GitHub:https://github.com/thunlp

               https://github.com/OpenBMB

Twitter:https://twitter.com/TsinghuaNLP


THUNLP 长期开放招聘


🎓     ➤  博后及研究员招聘 

📚     ➤  科研实习生招聘

💻     ➤  工程师团队招聘

TsinghuaNLP
清华大学自然语言处理与社会人文计算实验室,是中国中文信息学会计算语言专业委员会和中国人工智能学会不确定性专业委员会的挂靠单位。负责人为清华大学计算机科学与技术系孙茂松教授,核心骨干为刘洋教授,刘知远副教授。
 最新文章