清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

学术 2024-11-11 20:40 北京

长文本（Long-context）大模型性能的优劣，在很大程度上取决于其能否全面理解长上下文场景下的复杂信息。

然而，现有的合成有监督微调（SFT）数据由于缺少人类核验，往往会影响长文本大模型的性能，导致 SFT 模型存在固有的缺陷，如幻觉和无法充分利用上下文信息等。

原则上，通过适当的奖励信号进行强化学习已被证明能有效地减少 SFT 模型的缺陷，使其更好地与人类偏好对齐，但在长上下文场景下如何获得可靠的奖励信号，仍是一个未被探索的问题。

如今，来自清华大学、中国科学院大学和智谱的研究团队在这一领域迈出了重要一步——

他们提出了一个名为 LongReward 的新方法，旨在利用现有的大语言模型（LLM）从四个人类价值维度（帮助性、逻辑性、忠实性和完整性）为长文本模型的回复提供奖励，并结合强化学习进一步提升模型的性能，从而有效地改进 SFT 模型。

论文链接：

https://arxiv.org/abs/2410.21252

GitHub 地址：

https://github.com/THUDM/LongReward

Hugging Face：

https://huggingface.co/datasets/THUDM/LongReward-10k

研究表明，LongReward 不仅可以显著提高模型的长文本性能，还能够增强它们遵循简短指令的能力。另外，带有 LongReward 的长文本 DPO 和传统的短文本 DPO 可以同时使用，而不会影响任何一方的性能。

研究方法

LongReward 通过奖励信号解决了 SFT 在长文本模型中因缺少人类标注而导致的数据质量问题。

具体而言，LongReward 利用一个现有的大模型（M_judge，该研究中使用的 GLM-4）从四个人类重视的价值维度——有用性、逻辑性、忠实性和完整性——为长文本模型的回复提供奖励。这些维度覆盖了模型输出的各个关键方面，确保在长文本情境下对生成内容进行全面评估。每个维度的评分范围是 0 到 10，最终奖励是这些分数的平均值。

图｜LongReward 图示

1.帮助性（Helpfulness）

评估模型回复是否与问题相关，是否提供了有用的信息，是否满足了用户的需求和要求。
由于帮助性主要依赖于问题和回复内容，基本与上下文无关，研究团队让 M_judge 通过少样本学习和思维链 (CoT) 对问题和回答进行评分。

2.逻辑性（Logicality）

评估模型回复的不同部分是否逻辑一致，观点是否一致，推理和计算是否正确，是否存在自相矛盾。
与帮助性类似，研究团队让 M_judge 通过少样本学习和思维链（CoT）对回答进行评分，找出可能的逻辑错误。

3.忠实性（Faithfulness）

评估模型回答中事实信息的比例是否与上下文一致。
要求 M_judge 首先将回答分解为事实性陈述，再判断每个陈述是否由最相关的上下文支持。
为了适应长上下文场景，将回答分解为句子级别的事实性陈述，并忽略不含事实信息的功能性句子。

4.完整性（Completeness）

评估模型回答是否涵盖了上下文中与问题相关的所有关键点，是否提供了足够的信息和细节来满足用户的需求。
首先将上下文分解为粗粒度的块，并让 M_judge 从每个块中提取与问题相关的信息。
然后将所有提取的相关信息拼接起来，再利用 M_judge 评估模型回复的完整性，即是否涵盖了所有重要信息。

在评分机制基础上，LongReward 与离线强化学习（RL）算法 DPO 结合，形成一个完整的 RL 框架。DPO 的目标是通过偏好数据集优化模型输出，使其更符合偏好要求。

具体来说，通过多次采样长文本 SFT 模型的回答并使用 LongReward 给每个回答打分，研究团队可以自动构建 DPO 所需的偏好数据集。

实验结果

他们的实验表明，LongReward 不仅显著提高了模型的长文本性能，还增强了它们遵循简短指令的能力。在 Llama-3.1-8B 和 GLM-4-9B 模型上进行的实验显示，使用 LongReward 的 DPO 模型在长文本任务上的性能分别比 SFT 模型提高了 4.9% 和 5.5%，超过了所有基线方法。

图｜使用 GPT-4o 对长文本基准进行自动评估的结果

图｜以 GPT-4o-mini 为评判标准，随机抽取了 260 道来自 LongBench-Chat 和 LongBench 的问题，得出 SFT 和 dLongReward+DPO 版本的事实分数。

图｜在一组 464 个人工标注的长文本偏好对中，将不同评分方法与人类偏好进行比对，其中的提问和回答分别来自 LongBench-Chat 和 Llama-3.1-8B 的 SFT 检查点。

此外，人类评估进一步验证了 LongReward 与人类偏好的良好一致性，并从所有维度（即有用性、逻辑性、忠实性和完整性）帮助改善了长文本模型，比 SFT 基线高出 46%。

图｜LongReward+DPO 版本的 Llama-3.1-8B 在 LongBench Chat 上与 SFT 基线对比的人工评估结果

同时，他们发现 LongReward 也有助于模型的简短指令遵循能力，并且可以很好地融入标准的短文本 DPO 中，共同提升长文本和短文本性能。

图｜不同模型在短文本指令跟随 benchmarks 上的表现

图｜使用不同偏好数据集的 DPO 模型性能

不足与展望

当然，这一研究也存在一定的局限性，主要包括以下三点：

首先，LongReward 的评估依赖于高精度、对齐良好的 LLM 模型（如 GLM-4），并且每个 QA 实例需要花费数十次 API 调用。未来，还需要尝试训练更小的长文本奖励模型，从而实现更快、更便宜的奖励计算。

此外，由于计算资源有限，该研究只在最大训练长度为 64k 的 10B 级模型上进行，限制了对更大规模模型和长序列的探索。

最后，从数据角度来看，该研究主要关注用户密集型的长上下文场景，如长文档 QA 和总结。未来可以尝试将 LongReard 推广到其他更高级的长指令任务，如终身对话和长历史 agent 任务，也是一个很有前景的方向。

作者：学术君

如需转载或投稿，请直接在公众号内留言

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247593524&idx=2&sn=a74779c9d15ae8a425546794ef1f6820

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉