图片来自网络
研究背景
以下是一条审稿意见:
“这篇论文不够好,这些方法看起来不是很严谨,我认为这些结论无法很好得支撑论文观点。”
这条意见缺乏有价值的信息,因为它的批评过于笼统,关于方法和结论的问题应当被详细论述。在审稿过程中,这种低质量信息很难帮助编辑做出录用决定。大语言模型(Large Language Model, LLM)的发展加剧了这个问题,因为LLM降低了信息生成的成本,它可以有效模仿人类语言,但缺乏深层洞见。
在众多领域,如学术界、商业界、艺术界,获取高质量的主观文本信息都至关重要。例如,在淘宝、大众点评消费时,人们会参考商品评价,如果平台充斥着低质量或LLM生成的信息,人们可能很难做出完备的决策。激励高质量文本信息迫在眉睫。
判断主观信息的常用方法是同伴预测(Peer prediction),该方法的实现要求已知先验分布。现有工作通过多任务预测或信号-预测框架来估计先验分布,由于估计的复杂性,这些方法只对答案空间较为简单的多项选择或数值预测问题奏效,无法在复杂的文本信息空间中使用。LLM或多或少估计了整个人类语言的分布,因此,本文考虑通过LLM获取先验分布,并在此基础上实现同伴预测,从而激励高质量文本信息。
研究方法
首先,文中定义LLM在输入提示语ψ后输出的预测为,并假设LLM可以较为准确地预测高质量信号的信息结构。基于此假设,本文提出了两种文本信息同伴预测机制:
生成式同伴预测机制(Generative Peer Prediction Mechanism, GPPM):给定同伴的预测用户i的报告的得分是
生成式梗概同伴预测机制(Generative Synopsis Peer Prediction Mechanism, GSPPM):假设对评审物有一个公认的梗概,给定同伴的预测, 用户i的报 告的得分是
为了验证两种机制的有效性,文中提出了两类获取LLM预测的方法:
1. Token:该方法需要获取LLM的神经网络,通过输出层来计算下一个token的概率反馈;
2. Judgment:该方法可以在仅有API的情况下使用,首先将每个文本处理为一组判断,然后用LLM估计每个判断之间的关联性。
研究结果
本文证明,基于以上两种机制的支付方式可以确保如实上报高质量信息为贝叶斯纳什均衡,并且,LLM的预测越准确,这两种机制的激励效果越好。接着,文中证明,与GPPM相比,GSPPM可以更好地激励高质量文本信息,因为它通过消除公共梗概信息的影响,更加有效地惩罚了低质量信息,从而产生了更可靠的分数。
本文用随机汇报替代(Random Report Replacement)代表无信息文本,用判断层降级(Judgment-Level Degradation)和句子层降级(Sentence-Level Degradation)来代表低质量文本或不诚实的高质量文本,将人类专家给出的评价视为诚实的高质量文本。
本文在Yelp在线评论数据和ICLR同行评审数据中,用各种信息与专家信息评分差值的显著度来验证机制的有效性。
从上图可以看出,GPPM可以有效惩罚汇报降级。
此外,考虑到广泛存在的LLM生成信息,文中考虑GPT生成的信息为低质量信息(其中,GPT-3.5生成的信息劣于GPT-4)。
从上图可以看出,两种机制可以有效区分不同的文本信息质量,同时GSPPM可以更好地惩罚GPT生成的信息。
相关论文
[1] Lu, Yuxuan, et al. "Eliciting Informative Text Evaluations with Large Language Models." ACM Conference on Economics and Computation (EC). 2024.
写在最后
我们的文章可以转载了呢~欢迎转载与转发呦
想了解更多前沿科技与资讯?
长按二维码关注我们!
欢迎点击右上方分享到朋友圈
香港中文大学(深圳)
网络通信与经济学实验室
微信号 : ncel_cuhk