北大新作:让大模型来做peer-review结果会怎样?

科技   2024-11-15 13:05   上海  

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

让大模型来做peer-review结果会怎样?

PiCO: Peer Review in LLMs based on the Consistency Optimization.

论文:https://arxiv.org/abs/2402.01830

github.com/PKU-YuanGroup/Peer-review-in-LLMs


和人类论文审稿一样,大模型也可以来进行peer-review吗?北大团队受启发于同行评审机制(peer-review),探索了一种全新的开放环境下大模型无监督自动评估方法,叫做“PiCO”。该工作的核心点是想去回答如下问题,

在开放环境下,能否通过无监督的方式来得到比较公平、合理、且更接近人类偏好的大模型能力排序?

背景

现有的大模型评估方式面临着各式各样的问题,基于Benchmark的评估方式没法对齐人类实际使用的真实偏好,同时开始有不少文章讨伐这种基于Benchmark评估方式的合理性。其中不乏包括含沙射影型,在说自家模型性能好的同时,暗示某些大模型可能无意间过拟合了一些benckmark。基于众包标注的评估方式成本昂贵且对新模型不友好,例如最著名的Chatbot Arena平台在新模型发布后也需要数天才能得到准确结果。   

https://lmarena.ai/?leaderboard

由此,我们在思考人类是怎么评估自己的能力排名的,一些场景中,在没有上帝来给出ground-truth的情况下,我们是怎么无监督的、默契对一些能力排名达成一致且没有异议。这是一个对整个系统进行优化的过程,想让整个系统达到稳定要求整个系统的熵降到最低。

PiCO 框架

我们团队希望去探索一种无监督的、开放环境下的大模型全新评估方式,叫做“peer-review-in-LLMs”。总的来说,整套评估框架满足以下几点:

  • 评估所用数据集是无监督的,且整个过程是没有人类反馈(human-feedback)的;

  • 每个大模型能够当裁判来评估其它大模型对不同问题的回答,且其回答也会被其它大模型评价,整个过程满足“peer-review”的机制;

  • 我们希望通过优化每个大模型的“能力权重”来使得整个评估系统的熵最小,熵最小意味着所有的大模型对于优化后的排名“无异议”;

  • 一致性假设:高能力的大模型能够做出更为准确评估“Review”,且相比低能力的大模型也能获得更高的得分,我们基于该假设对整个系统的排名进行优化。

PiCO是如何做到的?

具体来说,整个过程分为”peer-review“阶段和”一致性优化“阶段。在”peer-review“阶段中,   

·我们首先会去收集一个包含 n 个问题的无监督数据集 ,以及包含 m 个大模型的候选池

·然后,我们让所有的大模型去回答每一个问题并最终得到一个回答集

·接着,我们将相同问题的不同回答构成 pair 对 ,并从候选池中随机挑选一个大模型 来评估其偏序关系最终构成一个四元祖,其中 i 代表问题下标, j,k,s 代表模型下标, 代表模型 的“能力权重”;

最终,我们可以得到一个回答偏序数据集 “Answer-Ranking data”

在”一致性优化“阶段中,我们希望通过优化每个大模型的“能力权重”使得其能力 w 和得分 G 满足一致性。即,

其中一致性优化目标使用的是皮尔森系数,得分 表示如果模型   认为 j 的答案比 k 好,那么模型 的得分加

举个例子,在学术圈的真实“peer-review”机制中,如果整个系统只包含“某巨佬 Lecun (L) ”,“某老师 Teacher (T) ”,“本菜鸡我 (I) ”。显然,我们三之间的学术水平应该满足以下关系,即 。此外,我们各自提交了一篇文章让彼此审稿,那么理想状态下,我们三的得分排序也应当是 。另一方面,能力越强的 Lecun 来评估 具有越强的说服力;相反,能力越弱的我去评估 L 和 T 的偏序关系可信度也相对更低。         

 

    

PiCO还引入了一种无监督的淘汰机制,通过迭代移除得分最低的模型以提升一致性优化的评估效果。

实验结果

消融实验的结果表明所提假设的正确性,即高水平的大模型可以比低水平模型更准确地评估其他模型的回答(置信度),并且高水平的大模型也可以获得更高的回答排名得分,模型的能力与评分通常具有一致性。

PiCO方法在多个基于排名的指标上超越了包括Claude-3在内的所有基线方法,尤其在斯皮尔曼和肯德尔相关系数上显著提高。相比现有SOTA方法PRD和PRE,PiCO通过无监督学习实现了更高的评价效果,避免了依赖人为反馈带来的偏差。总体而言,PiCO利用“群体智慧”比单一模型方法更准确地对齐人类排名。

模型本身在评估过程中会带有偏好,特别是像ChatGLM-6B和Mpt-7B这类模型,通常认为自己的结果优于其他模型,表现出明显的偏向性。本文提出的方法通过引入学得的置信度权重 w来重新加权,显著减小了这种偏好差距,从而有效减轻了系统的评估偏差,使评估更加公平。

较弱的模型往往评估能力较差,增加了系统中的噪声,因此去除这些较弱模型能够提高系统的稳健性。PiCO通过无监督方法自动学习到删除阈值,实验证明去除约60%的较弱模型后系统损失达到最低,而删除过多强模型则会对评估过程产生不利影响。

PiCO方法在精度和RBP等指标上超越了所有基线,证明其在LLM排名预测上更加准确,且与其他方法相比消耗的token相近但无需人工标注。实验结果还表明一致性优化过程具有稳定性,学习到的权重 w 能有效收敛

一致性假设的背后人类的评估系统在大模型上也适用,该工作还在进行更为深入的挖掘,欢迎关注~

 

    

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!


扫码加入星球学习

▲点击上方卡片,关注CVer公众号

整理不易,请赞和在看

CVer
一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。
 最新文章