大模型榜单还能信吗？一个假模型就能登顶排行榜

科技 2024-10-15 08:01 北京

1. 缘起

目前评测大语言模型主要有两种方法：

• 通过人类投票来进行评估，比如：Chatbot Arena，但是这种往往需要花费较长的时间。
• 为了降低人类标注的依赖，还有另外一种自动化的LLM基准测试。这种方法成本低、容易扩展。

自动化基准测试也成为了众多模型的热门选择，而且测试中的高胜率往往能带来显著的宣传优势。

但是，自动化基准测试的胜率可能会受到长度和风格偏见的影响。虽然大多数这种影响是来自训练数据集，但是这也导致存在操纵胜率的可能性。

在本篇论文里，作者通过提交一个“假模型”来对自动化测试进行压力测试。

2. 作弊策略（假模型策略）

null

从上图可以看到 suffix策略（指只使用对抗性后缀策略，不对输入指令作出有实质内容的回应）情况下，并没有实质的作弊效果。所以，作者提出了新的作弊策略：

• （1）构建结构化的回答来迷惑LLM自动标注器从而达到作弊效果
• （2）进行基于token级别的随机搜索来设计对抗性前缀

2.1 结构化作弊响应

null

如上图，结构化作弊响应策略是指把原来的评判提示词进行修改，本质上是一种提示词注入。

例如，在AlpacaEval 2.0中，当提交的目标模型（待评测性能的大模型）的响应位于最后时，标注器倾向于预测“M”。而当它出现在首位时，标注器则倾向于预测“m”：

-（1）用一个虚构的指令-输出三元组替代了原始的指令-输出三元组；

-（2）默认位置时，利用标注器模型对最后输出的普遍偏好，引导其预测“M”；

-（3）当位置被交换时，它利用覆盖模型“M”的输出，导致标注器预测“m”。

正确的AlpacaEval 2.0 提示词

null

目标为模型M的作弊策略

null

目标为模型m的作弊策略

null

上面举例的这个结构化回应提示词在AlpacaEval 2.0上达到了76.8%的LC胜率。

原始胜率（Raw Win Rate）： 最直接衡量模型获胜次数的比例。在自动基准测试中，模型的输出会被与一组标准或参考输出进行比较，原始胜率即模型被判定为优于或等于参考输出的频率。这种胜率计算方式没有对输出的长度或风格进行控制，因此可能受到模型输出长度的影响，即更长的输出可能更受青睐。

离散胜率（Discrete Win Rate）： 离散胜率是在考虑输出质量的基础上，对原始胜率进行的一种调整。在计算离散胜率时，评估系统会将模型的输出与参考输出进行细致的比较，并对每个输出的各个方面（如准确性、相关性、完整性等）进行评分。离散胜率可能会排除那些虽然在总体上被判定为获胜，但在某些关键方面表现不佳的输出，从而提供一个更加关注输出质量的获胜比例。

长度控制胜率（Length-Controlled Win Rate，简称LC胜率）： LC胜率是为了减少模型输出长度对评估结果的影响而设计的一种指标。在计算LC胜率时，评估系统会控制模型输出的长度，确保所有参与比较的输出在长度上是可比的。这样可以避免因输出长度不同而导致的评估偏差，提供一个更加公平的模型性能评估。LC胜率可能会在输出长度相似的条件下计算模型的获胜次数，从而更准确地反映模型在处理特定任务时的能力。

2.2 通过随机搜索（RS）设计对抗性前缀

为了进一步提升结构化回应的效果，引入了一个对抗性前缀，并采用基于GPT-4查询结果的RS策略来优化它。

为了模拟更具挑战性的场景假设自动基准的输入指令是保密的。

开发了一个可转移的前缀，利用公开可用的指令集来设计。通过在不同指令上聚合损失来优化单个对抗性前缀，确保前缀在不同输入指令和位置上的影响是普遍的。

采用RS算法来优化对抗性前缀。该算法通过采样修改并选择在多个指令上最小化聚合损失的变体来完善前缀。

3. 作弊策略的效果如何？

null

上图展示了作者的结构化响应作弊策略与其他16个固定响应进行比较的效果。下图展示了其他16个固定响应内容。

null

结果表明：结构化回应作弊做略以最低的对数概率胜出，证明作者的策略在欺骗自动标注智能体方面的高效性。

默认配置中，当目标模型响应放在提示词第二位时，有较低的损失，表明GPT4对第二位偏好。

null

上图将作弊策略的得分与当前（2024年10月1日之前）顶尖模型的胜率进行对比：在所有基准测试中显著提升了表现，赢得了最高的胜率和评分，达到了76.8%的LC胜率和59.5%的原始胜率。

经过RS优化后，LC胜率提升至86.5%，原始胜率提高至76.9%。

这些成果与经过验证的SOTA模型相比有了显著提升，后者仅达到了57.5%的LC和51.3%的原始胜率。

结合随机搜索的结构化方法在LC胜率上比经过验证的SOTA高出29.0个百分点，在原始胜率上高出25.6个百分点。

与社区SOTA相比，在LC上表现更佳（86.5%对78.5%），在原始胜率上相当（76.9%对77.6%）。

由于其简短，作弊的LC胜率普遍高于原始胜率，这表明AlpacaEval 2.0对长度作弊也不够健壮。

在Arena-Hard-Auto上，结构化响应作弊策略达到了67.2%的胜率，经过随机搜索后提升至83.0%。

总之，在各种基准测试中都取得了显著的增益，超越了现有技术，证明了其在不同基准测试中的高效性，并强化了对更健壮的自动LLM基准测试的需求。

4. 消融实验

4.1 结构化回应在开源自动标注智能体上有效吗？

在AlpacaEval 2.0测试指令的子集上，使用不同的无效回应评估log p(winner = NullModel)。

null

如上图，结构化响应作弊策略对Llama-3自动标注智能体的影响很小。在Llama-3-8B-Instruct的情况下，结构化回应并未利用该智能体的位置弱点，因为默认位置和交换位置的对数概率与不同的有说服力回应大致相似。

然而，在Llama-3-70B-Instruct上，在交换设置下观察到，结构化回应成功降低了对数概率。此外，在位置偏见方面，Llama-3-8B-Instruct显示出很小的位置偏见，因为默认位置和交换位置的概率相当接近。相比之下，Llama-3-70B-Instruct在交换设置下显示出明显的位置偏见，更高的对数概率表明该智能体强烈偏好最后输出（“M”）。

较大的Llama-3-70B-Instruct智能体的行为更接近更先进的GPT-4，因为它对结构化回应和位置偏见的反应比小型8B智能体更为敏感。这表明模型规模可能增加了对我们作弊技术的敏感性。

总的来说，与GPT-4相比，结构化响应作弊策略在Llama-3智能体上的效果要小得多。这种差异的可能解释是，Llama-3智能体，尤其是较小的8B版本，其遵循指令的能力不如GPT-4强大，使它们对作弊回应的敏感性较低。

4.2 随机搜索对开源自动标注智能体成效显著吗？

null

如上表，随机搜索在Llama-3-8B-Instruct和Llama-3-70B-Instruct等开源自动标注智能体上表现出色。

以Llama-3-8B-Instruct为例，缺少随机搜索时，结构化回应的LC胜率仅为2.9%，原始胜率为1.4%。而一旦采用随机搜索，胜率便戏剧性地飙升至95.4%（LC）和86.3%（原始），LC胜率提升了92.5个百分点。

对于Llama-3-70B-Instruct，仅凭结构化回应，LC胜率仅为0.4%，总体胜率为0.2%。但随机搜索的加入使得这些胜率分别跃升至95.1%（LC）和91.6%（原始），分别提升了94.7和91.4个百分点。

这些数据证明**随机搜索在提升开源自动标注智能体的作弊成功率方面极为有效，胜率直逼100%**。

4.3 直接针对测试指令进行搜索有用吗？

也探索了直接作弊策略的效果。直接作弊可以看作是作弊效果的上限指标。

null

上表的Test列表示是否是直接作弊。结果表明：直接针对测试指令进行搜索显著增强了作弊的效果。

对于Llama-3-8B-Instruct模型，结合结构化回应和随机搜索，但不接触测试指令，LC胜率达到了95.4%，总体胜率为86.3%。

然而，当对抗性前缀直接针对测试指令进行优化时，LC胜率几乎达到了完美的99.8%，总体胜率提升至99.4%，分别提升了4.6和13.1个百分点。

同样地，对于Llama-3-70B-Instruct模型，不接触测试指令的随机搜索，LC胜率为95.1%，总体胜率为91.6%。

而一旦利用测试指令，这些比率分别攀升至99.4%（LC）和98.2%（原始），LC胜率提升了约4.3个百分点，总体胜率提升了6.6个百分点。

这些结果表明直接针对测试指令进行搜索带来的显著优势，进一步优化了对抗性前缀，几乎达到了完美的表现。

4.4 结构化作弊策略能与传统回应相结合吗？

结构化作弊策略可以与传统的、有信息量的回应相结合，只需将我们的作弊回应附加到原始回应上即可。

null

如上面4个图所示，当与像GPT-3.5-0613这样更提供信息的模型结合时，即使在采取重大优化步骤之前，初始胜率已经很高。

这一点在图b和d中尤为明显，随着优化的深入，性能（胜率和长度控制胜率）从高基线稳步提升。

a和c中，由于不提供与输入查询相关的任何信息，欺骗自动标注智能体的难度大大增加。

随着优化步骤的推进，无效模型的性能稳步提升，最终实现了有竞争力的胜率。

即使在模型输出无关、无信息的回应这一最具挑战性的场景下，也能操纵基于LLM的基准测试。

5 反作弊策略

5.1 模板改写术

改写输入文本是对抗语言模型破解的有效防御手段。基于此理念，对抗结构化响应作弊策略之一是仅发布自动标注模板的改写版本，同时保留真实模板的私密性。

本方法是假设改写后的模板将更难被作弊者直接利用。

null

如上表所示，即便模板经过改写，依然能够达到高胜率（例如92.1%的LC胜率）。这表明，仅发布改写模板作为防御机制是不够的，因为即使原始模板保密，作弊策略仍然有效。需要更强有力的防御措施来彻底解决这一问题。

5.2 困惑度过滤器（PPL filter）

使用GPT-4-1106-Preview作为自动标注智能体，以评估基于困惑度（PPL）的过滤器的有效性。困惑度是利用GPT-2计算的，遵循Alon & Kamfonas（2023）描述的方法。

null

如上图所示，尽管设定了高阈值，PPL过滤器未能持续识别出对抗性输出。例如，结构化响应作弊策略即使胜率高达76.8%，其困惑度仍然低于阈值，使得过滤器失效。

仅依赖于困惑度，即使是窗口化配置，也不足以稳健地检测出旨在影响LLM判断的对抗性操作。

6. 结论

即便是最基础的模型，也能通过利用评估流程中的结构性缺陷来获得高胜率。

6.1 局限性

• 首先，主要关注特定的基准测试，尽管结果在这些测试中得到了很好的推广，但在其他基准测试中的有效性仍然是未知的。
• 此外，结构化响应作弊策略很大程度上依赖于手工构建结构化响应。未来的研究可以探索更自动化的方法来生成对抗性输出，这将使对手能够在更广泛的范围内利用这些漏洞。

未来研究的一个重要方向是开发更强大的反作弊机制。目前，针对LLM基准测试的作弊缓解措施主要集中在控制输出的长度和风格上，但这些措施在面对结构化响应时已被证明是不够的。新的防御策略对于保持LLM基准测试的完整性至关重要。

来源 | 大语言模型论文综述

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247548595&idx=5&sn=cbc942fa91f425ca7bea8a2fa331fcaf

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

曝海康威视大裁员！涉及1000+员工，N+2赔偿！官方回应来了。。。

ChatGPT的超人类能力：看穿人心，OpenAI报告揭露真相！

o1快慢思考的风又吹到了Agent！

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

大快人心！11名硕博生联合举报的教授被解聘后，再被通报

下载量10w+！LLM经典《大型语言模型：语言理解和生成》pdf免费分享

50K*16薪，进字节了！！！

星舰不过是工程把戏？杨立昆教授：AI在智力、记忆远不如猫！

清华最新RAG框架：Adaptive-Note RAG，比Adaptive RAG还要好

2024年新书-《掌握大语言模型》免费pdf分享

追逐AGI！微软AI副总裁、Phi小模型领导者Bubeck将加入OpenAI

官方稀缺-《OpenAI大模型指南》中文版免费分享

只要敢捞偏门，篇篇都是顶会顶刊！

扩散模型训练新篇章：谢赛宁的'Representation matters'理念

大模型榜单还能信吗？一个假模型就能登顶排行榜

剧情反转！95 后4博士2博士后，涉事研究院院长：赵子健符合招聘要求，“我们特别对不起他”

【包教包会】速通LLM《从头开始构建大型语言模型》免费pdf分享

重磅！2025泰晤士世界大学排名公布

[送4本]《AI系统：原理与架构》于华为HC大会2024正式发布

LLM预训练与SFT数据配比调研

Anthropic CEO 万字长文：我认为AGI最早会在 2026 年出现，机器可以像人类一样协助办公

逆天20w赞！吴恩达+Open AI打造《大模型通关指南》

谷歌工程师杀妻案开庭！更多细节爆出！

[送5本] 《深度学习革命》2024诺贝尔物理学奖得主辛顿：无法坐下的AI先驱

Mamba2，比Transformer速度提高了8倍！

OpenAI今天Open了一下：开源多智能体框架Swarm

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

国务院任命！原C9党委书记，任教育部副部长

【送5本】《大模型应用开发：RAG入门与实战》RAG入门与实战书来了！

田渊栋：求道之人，不问寒暑

现代LLM基本技术整理

52k star，北大内疯传《大学生CS自救指南》免费分享

国自然委通报！985教授给研究生发放劳务费后再回收！以此套取科研经费

诺奖争议升级：Nature杂志揭露提名黑幕，Jürgen公开反对Hinton获诺贝尔奖！

绝对顶流！清华博导倾力编写的《图神经网络导论》pdf免费分享

诺奖AI之父Hinton：我确实有些孤独，但并不是完全孤立无援

o1推理扩展的风吹到了RAG，性能飙升58.9%！

9月最新中文版大模型奇书！熬夜看完了，免费pdf分享！

奇书！又一本开源免费的大模型书来了：9月最新中文版，449 页！

上海交通大学震撼发布：首个OpenAI O1项目复现报告，揭秘独家经验！

诺奖现场采访2024物理学得主Hinton：当前AI革命堪比工业革命，且将在智力上全面超越人类

逆天20w赞！吴恩达+Open AI打造《大模型通关指南》

从0手搓4种Agentic模式，主打去框架化!

下载量超5w！机器学习入门圣经《机器学习导论》最新第四版PDF免费分享

今天面试了一个字节女生，当场想给她offer！

诺贝尔物理学奖新篇章：AI之父的非凡成就与物理学的不解之缘！

全是细节｜大模型SFT的100个关键点

吴恩达力荐，100%好评-《LangChain大型语言模型(LLM)应用开发》免费分享

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉