一句话就能让论文评分飞升！上交大揭露大模型审稿背后的深度逻辑及风险！

文摘 2025-01-08 11:16 安徽

文献标题

英文标题：Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review
中文标题：我们准备好了吗？揭示在学术同行评审中使用大语言模型的风险
论文链接：2412.01708

1. 研究背景

学术同行评审作为科学进步的核心环节，旨在通过专家的严格评估确保研究质量和科学出版物的可信度。然而，近年来，学术界面临着以下挑战：

稿件数量激增：现代科学出版的快速增长导致评审需求显著增加。
评审资源有限：高质量的评审需要投入大量时间和精力，许多领域面临合格评审者不足的问题。
评审效率低下：2020年全球同行评审所消耗的时间累计超过15,000年，经济成本超过15亿美元。

在此背景下，研究人员探索了自动化工具的可能性，特别是大语言模型（LLMs）在同行评审中的应用。LLMs（如GPT-4）凭借其卓越的自然语言理解与生成能力，被视为缓解评审压力的潜在解决方案。一些研究已经显示，LLMs生成的评审内容与人工评审具有一定的相似性，甚至在某些场景下能有效辅助评审者完成工作。

然而，随着LLMs的应用范围逐步扩大，其潜在风险也逐渐显现。尽管现有研究揭示了其在生成虚假信息（即“幻觉”）或体现人类偏见方面的问题，但尚缺乏对LLMs在同行评审中可能被操控性和固有缺陷的全面评估。

2. 研究目的

本研究的核心目标是通过实验与分析，揭示LLMs在学术同行评审应用中的风险，并评估其在当前阶段是否具备广泛应用的能力。研究具体探讨以下几个问题：

显性操控：LLMs生成的评审内容是否容易被显性操控？例如，论文作者是否可以通过插入隐藏文本来影响模型输出。
隐性操控：作者是否可以通过策略性地披露论文的次要局限性，引导LLMs生成更有利的评审？
固有缺陷：LLMs在评审中是否存在系统性问题，如对论文长度和作者身份的偏见，或生成内容的幻觉问题？
LLMs能否替代人工评审：现阶段的LLMs是否已经具备在学术评审中充当主要工具的能力？

通过研究这些问题，作者希望为学术界提供更清晰的视角，帮助评估LLMs在评审系统中的未来潜力及其需要解决的关键挑战。

3. 文献综述

现有研究进展：

LLMs的能力：已有文献表明，LLMs可以有效生成与人工评审类似的内容。例如，在Nature期刊的评审中，LLMs生成的内容与人工评审具有30%以上的一致性。
评审辅助工具：一些AI会议（如ICLR 2024）的评审中，15.8%以上的评审受到LLMs的显著影响。
风险初步探索：部分研究揭示了LLMs可能存在生成虚假内容（幻觉）和反映人类偏见的问题。

研究空白：尽管上述研究提供了对LLMs评审能力的初步验证，但缺乏对以下关键问题的系统探讨：

LLMs在学术评审中易受显性操控的程度；
LLMs是否会受到作者策略性披露内容（隐性操控）的影响；
对LLMs在评审中的固有缺陷缺乏全面的实验评估，例如对论文长度和作者身份的偏向性。

4. 研究结果（Results）

4.1 显性操控（Explicit Manipulation）

unsetunset4.1.1 实验方法unsetunset

研究者设计了一个显性操控实验，方法是在论文 PDF 中以微小的白色字体插入隐藏文本（几乎无法被人类识别）。这些插入的文本内容包括正面评价和轻微的负面改进建议。
目标是测试 LLMs 是否会在评审过程中提取这些隐藏文本，并将其内容直接反映在生成的评审中。

unsetunset4.1.2 主要发现unsetunset

评审一致性显著下降：

在没有操控的情况下，LLMs 生成的评审内容与人工评审的一致性为 **53.29%**。
在加入操控后，这一一致性显著下降到 **15.91%**，表明隐藏文本对模型的输出具有强大影响。

LLMs 被完全操控：

插入的隐藏文本与 LLM 生成评审的内容一致性高达 **92.49%**，显示出操控的高效性。
被操控后的 LLM 评审中，评分从原始平均分 5.37 提升至 7.99，表现出对操控内容的高度敏感性。

弱论文受益更多：

对被拒稿件或撤回论文的影响更为显著。这表明显性操控可能导致低质量论文获得不当的积极评价，严重影响评审系统的公正性。

4.2 隐性操控（Implicit Manipulation）

unsetunset4.2.1 实验方法unsetunset

在隐性操控实验中，研究者聚焦于作者策略性披露论文局限性的行为。
一些学术会议（如 NeurIPS）鼓励作者在论文中主动披露其研究局限性。研究者分析了这种披露行为是否会对 LLMs 的评审产生不恰当的引导作用。
具体实验方法是比较 LLMs 与人工评审在评审内容中对作者披露局限性的关注程度。

unsetunset4.2.2 主要发现unsetunset

局限性披露对 LLMs 的影响更大：

LLMs 生成的评审中，与作者披露的局限性内容一致性比人工评审高 4.5 倍。
这表明 LLMs 在评审过程中，过于依赖作者披露的内容，而缺乏独立的批判性思考。

操控性披露的风险：

作者可以策略性披露无关紧要或容易解决的局限性，从而引导 LLMs 将这些内容视为论文的主要缺点。
这一策略可能导致 LLMs 生成对论文更为宽容的评审内容，进而影响评审结果。

4.3 固有缺陷（Inherent Flaws）

unsetunset4.3.1 实验设计unsetunset

研究者分析了 LLMs 在以下三个方面的固有缺陷：幻觉生成、长度偏向和身份偏见。

unsetunset4.3.2 主要发现unsetunset

幻觉生成（Hallucination Issues）：

当向 LLMs 提供空白或部分内容（如仅包含标题的论文）时，模型依然生成了完整且流畅的评审。
示例：针对仅有标题的论文，LLMs 评审中描述“论文方法新颖，实验设计严谨”，完全违背事实。
结果显示，标题仅占论文内容的 **5%**，但生成的评审评分接近完整论文的评分，表明 LLMs 在评审中可能严重依赖幻觉生成的内容。

长度偏向（Bias Towards Length）：

研究者将论文按照长度分组，并分析 LLMs 的评分与长度的关系。
结果表明，较长的论文更容易获得较高评分，表现出显著的长度偏向。这可能是因为较长的论文提供了更多的文本，模型可以生成更多的“正面”评审内容。
具体发现：最长论文组的接受概率比最短论文组高出 **20%**。

身份偏见（Authorship Bias）：

在单盲评审环境中，研究者将论文的作者身份替换为知名机构（如麻省理工学院）或著名学者（如图灵奖得主）。
结果显示，当论文的作者被标注为知名机构或学者时，其评分显著提高。
具体数据：正面评分比例从 36.8% 提升至 **41.6%**，表明 LLMs 对知名作者存在偏见。

4.4 综合影响（Systemic Impact）

研究者还分析了显性和隐性操控对整体评审系统的系统性影响：

排名变动：

当 5% 的人工评审被 LLMs 评审替换时，有 12% 的论文在排名中发生显著变动。
其中，一些低质量论文通过操控跻身前 30% 的排名，进一步影响了评审的整体公正性。

接受率的变化：

被操控后的 LLMs 评审显著提高了低质量论文的接受率，可能导致整体学术标准的下降。

5. 研究方法（Methods）

本文的研究方法聚焦于分析大语言模型（LLMs）在学术同行评审中的表现及其潜在风险。研究分为三大部分：显性操控实验、隐性操控实验和固有缺陷分析，并通过量化指标对这些问题进行系统评估。

5.1 显性操控（Explicit Manipulation）

5.1.1 实验设计

目标：评估作者是否可以通过在论文中插入隐藏文本，显著操控 LLMs 生成的评审内容。
操作方式：

在论文 PDF 文件的结论部分插入以白色字体呈现的隐藏文本，这些文本对于人类评审者几乎不可见，但可以被 LLMs 的 PDF 解析器提取。
隐藏文本内容包含正面评价（如“论文方法具有创新性”）以及轻微的负面改进建议（如“建议对图表格式进行优化”）。

实验流程：

使用操控文本处理后的论文作为输入，生成 LLMs 的评审。
将这些操控后的评审与原始论文生成的评审进行对比，分析隐藏文本对 LLMs 评审内容的影响。

5.1.2 量化指标

一致性指标：

评估 LLMs 生成的评审内容与人工评审内容的关键点一致性（Human-LLM Consistency）。
对比操控前后，LLMs 生成评审内容与注入的隐藏文本的一致性（Injection-LLM Consistency）。

评分变化：

测量论文的平均评分在操控前后是否有显著变化。

5.2 隐性操控（Implicit Manipulation）

5.2.1 实验设计

目标：评估作者是否可以通过策略性披露论文的次要局限性，影响 LLMs 的评审。
操作方式：

收集包含局限性披露部分的论文，这些局限性通常是轻微或易于解决的问题。
比较 LLMs 和人工评审在生成评审内容时，针对这些披露内容的关注程度。

实验流程：

使用包含披露局限性的论文作为输入，生成 LLMs 和人工评审内容。
计算两者对披露内容的关注程度，并分析 LLMs 是否更倾向于重复这些披露的内容。

5.2.2 量化指标

披露一致性指标：

LLMs 生成评审与论文披露内容的一致性。
人工评审与论文披露内容的一致性，作为基准进行对比。

5.3 固有缺陷分析（Inherent Flaws）

5.3.1 实验设计

幻觉生成（Hallucination Issues）：

比较 LLMs 对上述不完整论文和完整论文的评分差异。
分析幻觉内容的具体表现形式。
使用三个不同程度的内容不完整论文：仅包含标题、仅包含标题和摘要、以及仅包含标题、摘要和引言。
输入这些论文内容至 LLMs，生成评审并分析其合理性。
目标：分析 LLMs 是否会对不完整或空白论文内容生成虚假但流畅的评审。
操作方式：
关键测试：

长度偏向（Bias Towards Length）：

分析评分是否随着论文长度的增加而单调上升。
将论文按照长度（字符或字数）分组，从最短到最长。
对每组论文进行评审，记录评分分布。
目标：测试 LLMs 是否对较长论文表现出偏好。
操作方式：
关键测试：

身份偏见（Authorship Bias）：

比较原始作者身份和替换后身份的评分差异。
将论文的作者身份信息替换为知名机构（如麻省理工学院）或著名学者（如图灵奖得主）。
对这些论文进行评审并记录评分变化。
目标：测试 LLMs 在单盲评审中是否对知名作者或机构表现出偏见。
操作方式：
关键测试：

5.3.2 量化指标

幻觉生成：

不完整论文评分与完整论文评分的差异。

长度偏向：

长论文评分与短论文评分的平均值对比。

身份偏见：

替换知名身份后评分的提升幅度。

5.4 数据分析与一致性测量

5.4.1 一致性测量工具

一致性定义：

两个评审的关键点重合程度（关键点提取后进行匹配）。

关键点提取方法：

使用 GPT 模型提取评审中的核心批评点，生成 JSON 格式的内容。

匹配过程：

比较两个评审的 JSON 内容，并通过语义匹配计算相似度（匹配评分为 5-10 的关键点被视为有效匹配）。

5.4.2 量化结果：

一致性通过两个维度计算：

LLMs 评审与人工评审的匹配程度。
被操控后的 LLMs 评审与隐藏文本的匹配程度。

6. 讨论（Discussions）

6.1 LLMs 的当前局限性

6.1.1 易受操控性

实验表明，LLMs 的评审内容容易受到显性和隐性操控的影响。

显性操控：通过隐藏文本，作者几乎可以完全控制 LLMs 的评审内容，从而对低质量论文产生不当的积极评价。
隐性操控：作者通过策略性披露次要局限性，可以引导 LLMs 重复这些内容，进而淡化论文的真正缺点。

6.1.2 固有缺陷

幻觉问题：

LLMs 在面对不完整或空白内容时，仍然会生成看似合理但事实不符的评审。这一问题削弱了评审的可靠性。

长度偏向：

实验显示，LLMs 更倾向于为篇幅较长的论文打高分，这种偏向可能导致简洁而高质量的论文被低估。

身份偏见：

在单盲评审中，LLMs 对知名机构或学者的论文表现出更高的接受倾向，加剧了学术评审中的公平性问题。

6.2 对评审系统的威胁

6.2.1 操控的系统性影响

当部分人工评审被 LLMs 评审替代时，实验发现：

即使仅有 5% 的评审被操控性替换，也会导致 12% 的论文在排名中发生显著变动。
某些低质量论文可能通过操控跻身前 30% 的排名，从而影响评审决策。

6.2.2 整体学术标准下降的风险

被操控的 LLMs 评审可能提高低质量论文的接受率，长期来看可能导致学术出版物整体质量的下降。

6.2.3 公平性问题

身份偏见进一步加剧了学术界已有的偏向问题，例如对知名机构或学者的过度青睐，可能阻碍年轻或资源有限的研究者的公平竞争。

6.3 对未来研究的启示

6.3.1 LLMs 的应用方向

当前，LLMs 尚不适合作为同行评审的主要工具。
其潜在作用应集中于辅助评审，例如：

为评审者提供结构化反馈和初步评审建议；
提高评审效率，帮助评审者更快地抓住论文的关键点。

6.3.2 技术改进需求

操控检测与防护机制：

开发算法检测论文中的隐藏操控内容，例如通过白色字体或微小文本操控模型的行为。

去偏算法：

针对长度偏向和身份偏见问题，研究更公平的评分机制，确保 LLMs 评审的中立性和公正性。

幻觉生成的改进：

提高 LLMs 对输入内容的真实性判断能力，避免生成不符合事实的评审内容。

6.3.3 政策制定与伦理规范

建立明确的政策和伦理规范，规范 LLMs 在学术评审中的使用。
引入惩罚机制，针对论文操控或滥用 LLMs 的行为进行遏制。

6.4 对学术界的建议

6.4.1 有限和监督性使用 LLMs

在 LLMs 的当前形态下，应将其作为人工评审的补充工具，而非完全替代品。
监督性使用可以确保评审的最终决策仍然由人类专家完成，避免因 LLMs 缺陷导致的系统性风险。

6.4.2 推动 LLMs 的研究和开发

学术界应推动对更强大、更安全的 LLMs 的研究，探索如何降低其在评审过程中的漏洞。
同时，研究如何利用 LLMs 提高评审效率，减轻评审者的工作负担。

7. 主要结论

当前LLMs的能力不足以完全替代人工评审：在操控风险和固有缺陷未被解决之前，LLMs无法胜任学术评审的主要工具。
LLMs作为辅助工具的潜力：尽管存在问题，LLMs仍可以作为评审者的辅助工具，为其提供结构化反馈和建议。
迫切需要开发防护机制：包括检测显性操控的工具、去偏算法以及对幻觉生成的修正技术。

8. 文献评价

优点与创新

系统性地评估了LLMs在同行评审中的核心风险，为未来研究提供了重要参考。
实验设计严谨，涵盖显性操控、隐性操控和固有缺陷三个维度。
提供了清晰的定量指标（如一致性测试）来验证实验结果。

局限与不足

研究仅基于ICLR 2024的评审数据，可能无法完全泛化到其他学术领域。
对如何改进LLMs用于评审的技术细节讨论较少。

9. 研究启示

对学术界

在广泛采用LLMs用于同行评审之前，需引入有效的检测与防护机制。
将LLMs视为辅助工具，而非替代人工评审的解决方案。

对未来研究

开发更强大的LLMs模型以减少其对操控内容的敏感性。
探索去偏算法，以消除LLMs对论文长度和作者身份的偏见。
提高LLMs对学术论文内容的真实性与严谨性识别能力。

对政策制定者

建立学术评审中使用AI技术的伦理指南。
推动开发检测操控内容和修正幻觉生成的技术工具。

欢迎投稿

想要让高质量的内容更快地触达读者，降低他们寻找优质信息的成本吗？关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁，连接不同领域、不同背景的学者，让他们的学术灵感相互碰撞，激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容，无论是最新的论文解读，还是对学术热点的深入分析，或是科研心得和竞赛经验的分享，我们的目标只有一个：让知识自由流动。

📝 投稿指南：

确保文章为个人原创，未在任何公开渠道发布。若文章已在其他平台发表或即将发表，请明确说明。
建议使用Markdown格式撰写稿件，并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权，并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式：

您可以通过添加我们的小助理微信（aiqysd）进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”

长按添加AI前沿速递小助理

AI前沿速递

持续分享最新AI前沿论文成果

最新文章

本地部署最强开源模型—DeepSeek-r1（保姆喂饭级教程）

2025 Kaggle 小白练习赛——使用保险数据集进行回归！

深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

2025即插即用，Mamba线性注意力机制模块，持续起飞！

目前主流的attention方法都有哪些？

Tip 2024 | CGA特征融合模块，短短几行代码，有效提点，即插即用

TPAMI 2024 | 真的鲨疯啦！深度视觉学习诚不欺我！

AAAI 2024 | Conv-Former：卷积赋能，实现Transformer效果的即插即用模块！

【计算机视觉新突破】GLOMAP：重新定义全局结构光运动（SfM）的高效系统

如何评价大语言模型架构 TTT ？Transformer这次真的要没了？

NeurIPS | HiLo注意力机制：即插即用，精准捕获高低频特征

Flare7K++：解决夜间耀斑难题的综合数据集与流程

有小黑子说我家ViT在小数据集上不work，我真的忍不了了!

CVPR ｜只用一部分就好，别再傻乎乎的用普通卷积了！

博士招生 | 上海理工大学光学工程博士招生（优青教授课题组，物理、光纤传感、人工智能方向）

如何评价 Kimi 发布的多模态推理模型 k1.5？

告别手工特征提取！SparseViT 开启图像篡改定位新篇

CricaVPR：开启视觉位置识别新篇章，跨图像相关性助力性能飞跃

漫谈 Transformer 中的绝对位置编码、相对位置编码和融合位置编码（旋转位置编码 RoPE）

Nature | 给出材料性质就能输出材料结构，微软最新MatterGen模型，真猛！

博士招生 | 南方科技大学ai{DEAL} 课题组人机交互与教育技术方向博士后招聘

ECCV 2024 | 最新直方图transfomer，直接涨点起飞！

博士招生 | 吉林大学计算机学院90后教授、博士生导师招生、招老师啦！

AAAI 2024 | 动态频域fft模块，几行代码，有效提点，即插即用

得克萨斯大学提出一种解码器，以极低计算成本达成医学图像分割SOTA新性能！

TPAMI 2024 | 神来一笔！无监督半监督怎么进行球形空间领域适应呢？

超越Transformer，魔改的Mamba将横扫顶会？！

ICCV 2023 | 多尺度线性注意力模块，有效涨点，即插即用

博士招生 | 英国斯旺西大学招收研究型硕士（无需上课）和博士

CVPR 2024 | 单头注意力机制(SHSA)，即插即用，涨点起飞！

CVPR 2024 | 最新即插即用注意力机制+ffn层

博士招生 | 新加坡国立大学（NUS）招聘多名机器学习控制相关的全奖博士生 , 博士后

ECCV 2024 | 小波变换卷积的即插即用，引入了频域信息，助你涨点起飞

博士招生 | 加拿大阿尔伯塔大学招收电磁、无线通信、机器学习方向全奖硕士/博士/博士后/访问学者

TPAMI 2024 | 多模态融合超前研究！维度情感识别！

像教女朋友一样教你用Cuda实现PyTorch算子

TPAMI 2024 | 全新框架！深度学习可解释度量学习！

招生 | AI方向博士后招聘--北航杭州国际校园薪金40万起！

厉害了，LSTM+Transformer王炸创新，精准度又高了！

看我操作，手写一个神经网络训练架构！

一句话就能让论文评分飞升！上交大揭露大模型审稿背后的深度逻辑及风险！

【扩散模型】拿下CVPR两篇最佳论文，它究竟有何特别之处？我直呼牛批克拉斯！

博士招生 | 上海交通大学人工智能学院赵波课题组招硕博士生/实习生

一文读懂如何使用图框架构建多代理应用程序

博士招生 | 上海科技大学信息科学与技术学院 - 汪婧雅教授团队招收机器学习方向博士

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

TPAMI 2024 | 变态但很有效的图像识别方法！对于小样本泛化有奇效！

Stable Video Diffusion整出新活！学习【扩散模型视频】掌握3D/视频生成变革！

北京AI公司联合哈工大深圳联合招聘生物医学AI算法科研实习生（北京深圳均可）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉