作者提出了一种估计大型语料中文本被大型语言模型大幅修改或产生的比例的方法。文中的最大似然模型利用专家编写和人工智能生成的参考文本,在语料库级别准确有效地检查现实世界的 LLM 使用情况。
作者将这种方法应用于 ChatGPT 发布后举行的人工智能会议中科学peer review的案例研究:ICLR 2024、NeurIPS 2023、CoRL 2023 年和 EMNLP 2023 年。
结果表明,作为同行评审提交给这些会议的文本中,有 6.5% 到 16.9% 可能已被大语言模型进行了大幅修改,即超出了拼写检查或较小的写作更新。
作者方法的具体步骤如下:
收集为原始语料库提供给(人类)作者的写作说明 - 在我们的例子中,是同行评审说明。 将这些指令作为提示输入大语言模型,以生成相应的人工智能生成文档语料库(第 3.4 节)。
使用人类和人工智能文档语料库,估计参考词符使用分布𝑃和𝑄(第 3.5 节)。
在已知 AI 生成文档的正确比例的情况下验证该方法在合成目标语料库上的性能(第 3.6 节)。
根据这些对𝑃和𝑄的估计,使用 MLE 来估计目标语料库中 AI 生成或修改的文档的比例 𝛼(第 3.3 节)。
生成文本可以为用户行为提供洞察的情况:在报告置信度较低、在截止日期附近提交的审稿以及不太可能回应作者反驳的审稿人中,LLM 生成文本的估计比例较高。
作者还观察生成文本中的语料库级别趋势,这些趋势可能过于微妙而无法在个体级别上检测到,并讨论这种趋势对同行评审的影响。
作者呼吁未来开展跨学科工作来研究大语言模型的使用如何改变我们的信息和知识实践。
论文地址:https://openreview.net/pdf?id=bX3J7ho18S
关于互联网持续学习圈