RPBench-Auto:大模型角色扮演Benchmark

文摘   科技   2024-08-09 09:30   上海  



思源Source报道
编辑:seefun
在大模型的实际应用场景,我们经常需要LLM能更好地遵循我们的指令,扮演好预设的角色,自从李沐的Boson.AI发布Higgs-Llama-v2以来,他们也意识到提供一个自动化基准来有效评估大型语言模型(LLM)的角色扮演能力的重要性。


简介

RPBench Auto,这是一个自动评估pipeline,旨在对LLM在角色扮演场景中的表现进行基准测试。

角色扮演基准(RPBench)

RPBench包括两种设置:基于角色和基于场景的角色扮演。

基于角色的设置类似于character.ai等角色扮演聊天机器人平台,用户可以自由地与他人创建的角色聊天。基准包含80个由在线社区创建的独特人物。在现实世界中,仅指定角色特征可能不会带来引人入胜的角色扮演体验。用户通常需要提供额外的上下文,以使AI角色更加真实和可玩。这包括过去的事件、角色与他人的关系、情绪状态和目标。

此外引入了一种基于场景的设置,类似于基于文本的角色扮演游戏(RPG)和互动电影。每个场景都包含上下文元素,如情节回顾、角色简介、场景目标和进度标准。此设置允许用户通过对话影响情节进度,并观察模型在各种情况下的行为。

原理

受ArenaHard和Alpaca Eval的启发,我们使用评判模型以互动的方式提供反馈。这使我们能够自动评估模型的能力。

在每个回合中,判断模型会像人类标注者一样,比较被评估模型和基准模型的响应。此外,判断模型还提供下一轮对话的用户输入。优选的响应将用于继续对话,模拟人类评估环境中的A-B测试。目前,我们使用GPT-4o作为基准模型,使用GPT-4-Turbo作为判断模型。在基于角色的设置中,判断模型与被评估模型进行每个角色的5轮对话。在基于场景的设置中,判断模型在每个场景中进行最多10轮对话,因为如果被评估模型决定推进故事情节,对话可能会提前结束。

这是截至2024年8月8日RPBench Auto的排行榜。有关最新排行榜,请点击“阅读原文”。

点击👇关注 “思源Source”

👇点个“赞”和“在看”吧

思源数据科学
Towards AGI
 最新文章