北大新作：让大模型来做peer-review结果会怎样？

科技 2024-11-15 13:05 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

让大模型来做peer-review结果会怎样？

PiCO: Peer Review in LLMs based on the Consistency Optimization.

论文：https://arxiv.org/abs/2402.01830

github.com/PKU-YuanGroup/Peer-review-in-LLMs

和人类论文审稿一样，大模型也可以来进行peer-review吗？北大团队受启发于同行评审机制（peer-review），探索了一种全新的开放环境下大模型无监督自动评估方法，叫做“PiCO”。该工作的核心点是想去回答如下问题，

在开放环境下，能否通过无监督的方式来得到比较公平、合理、且更接近人类偏好的大模型能力排序？

背景

现有的大模型评估方式面临着各式各样的问题，基于Benchmark的评估方式没法对齐人类实际使用的真实偏好，同时开始有不少文章讨伐这种基于Benchmark评估方式的合理性。其中不乏包括含沙射影型，在说自家模型性能好的同时，暗示某些大模型可能无意间过拟合了一些benckmark。基于众包标注的评估方式成本昂贵且对新模型不友好，例如最著名的Chatbot Arena平台在新模型发布后也需要数天才能得到准确结果。

https://lmarena.ai/?leaderboard

由此，我们在思考人类是怎么评估自己的能力排名的，一些场景中，在没有上帝来给出ground-truth的情况下，我们是怎么无监督的、默契对一些能力排名达成一致且没有异议。这是一个对整个系统进行优化的过程，想让整个系统达到稳定要求整个系统的熵降到最低。

PiCO 框架

我们团队希望去探索一种无监督的、开放环境下的大模型全新评估方式，叫做“peer-review-in-LLMs”。总的来说，整套评估框架满足以下几点：

评估所用数据集是无监督的，且整个过程是没有人类反馈（human-feedback）的；
每个大模型能够当裁判来评估其它大模型对不同问题的回答，且其回答也会被其它大模型评价，整个过程满足“peer-review”的机制；
我们希望通过优化每个大模型的“能力权重”来使得整个评估系统的熵最小，熵最小意味着所有的大模型对于优化后的排名“无异议”；
一致性假设：高能力的大模型能够做出更为准确评估“Review”，且相比低能力的大模型也能获得更高的得分，我们基于该假设对整个系统的排名进行优化。

PiCO是如何做到的？

具体来说，整个过程分为”peer-review“阶段和”一致性优化“阶段。在”peer-review“阶段中，

·我们首先会去收集一个包含 n 个问题的无监督数据集，以及包含 m 个大模型的候选池；

·然后，我们让所有的大模型去回答每一个问题并最终得到一个回答集；

·接着，我们将相同问题的不同回答构成 pair 对，并从候选池中随机挑选一个大模型来评估其偏序关系最终构成一个四元祖，其中 i 代表问题下标， j,k,s 代表模型下标，代表模型的“能力权重”；

最终，我们可以得到一个回答偏序数据集 “Answer-Ranking data”

在”一致性优化“阶段中，我们希望通过优化每个大模型的“能力权重”使得其能力 w 和得分 G 满足一致性。即，

其中一致性优化目标使用的是皮尔森系数，得分表示如果模型认为 j 的答案比 k 好，那么模型的得分加。

举个例子，在学术圈的真实“peer-review”机制中，如果整个系统只包含“某巨佬 Lecun (L) ”，“某老师 Teacher (T) ”，“本菜鸡我 (I) ”。显然，我们三之间的学术水平应该满足以下关系，即。此外，我们各自提交了一篇文章让彼此审稿，那么理想状态下，我们三的得分排序也应当是。另一方面，能力越强的 Lecun 来评估具有越强的说服力；相反，能力越弱的我去评估 L 和 T 的偏序关系可信度也相对更低。

PiCO还引入了一种无监督的淘汰机制，通过迭代移除得分最低的模型以提升一致性优化的评估效果。

实验结果

消融实验的结果表明所提假设的正确性，即高水平的大模型可以比低水平模型更准确地评估其他模型的回答（置信度），并且高水平的大模型也可以获得更高的回答排名得分，模型的能力与评分通常具有一致性。

PiCO方法在多个基于排名的指标上超越了包括Claude-3在内的所有基线方法，尤其在斯皮尔曼和肯德尔相关系数上显著提高。相比现有SOTA方法PRD和PRE，PiCO通过无监督学习实现了更高的评价效果，避免了依赖人为反馈带来的偏差。总体而言，PiCO利用“群体智慧”比单一模型方法更准确地对齐人类排名。

模型本身在评估过程中会带有偏好，特别是像ChatGLM-6B和Mpt-7B这类模型，通常认为自己的结果优于其他模型，表现出明显的偏向性。本文提出的方法通过引入学得的置信度权重 w来重新加权，显著减小了这种偏好差距，从而有效减轻了系统的评估偏差，使评估更加公平。

较弱的模型往往评估能力较差，增加了系统中的噪声，因此去除这些较弱模型能够提高系统的稳健性。PiCO通过无监督方法自动学习到删除阈值，实验证明去除约60%的较弱模型后系统损失达到最低，而删除过多强模型则会对评估过程产生不利影响。

PiCO方法在精度和RBP等指标上超越了所有基线，证明其在LLM排名预测上更加准确，且与其他方法相比消耗的token相近但无需人工标注。实验结果还表明一致性优化过程具有稳定性，学习到的权重 w 能有效收敛

一致性假设的背后人类的评估系统在大模型上也适用，该工作还在进行更为深入的挖掘，欢迎关注～

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247611055&idx=3&sn=d847f73ac5b8b92f2c4683b05b433e75

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

CVPR 2025 正式截稿！ICLR 2025和AAAI 2025投稿微信群成立！

遥感和Mamba微信群成立！

已注销！985新校区，不建了

校长书记双院士！教育部副部长，任C9党委书记！

NeurIPS 2024 | 免训练！VL-SAM：开放式目标检测和实例分割

马斯克新官上任，再起诉OpenAI！称Ilya七年前就不放心奥特曼了