这篇论文让我发现,原来机器人也怕小明的你妈叫你回家吃饭这种模糊请求啊!
-- 小红书巴比龙在大模型任我行下的评论论文:Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions
地址:https://arxiv.org/pdf/2410.13788
研究背景
这篇文章要解决的问题是大语言模型(LLMs)在处理高度模糊的用户请求时,常常默认一种解释,导致用户不满。现有的偏好数据标注方法仅基于先前的上下文,无法评估澄清问题的效用。因此,研究如何通过模拟未来回合的预期结果来标注偏好,使LLMs能够学习在后续回合中根据每个用户的解释生成有针对性的回答。
该问题的研究难点包括:现有偏好数据标注方法的局限性,难以评估澄清问题的效用;LLMs在处理模糊请求时倾向于直接回答而非提问,缺乏有效的训练方法。
该问题的研究相关工作包括:现有LLMs在处理模糊请求时的不足,通常直接假设用户的意图;已有的澄清问题生成方法多固定于特定任务或输入类型,缺乏对用户意图的灵活应对。
研究方法
这篇论文提出了一种新的标注方法,用于训练LLMs在多回合交互中询问澄清问题。具体来说,
双回合偏好标注方法:传统的单回合偏好标注方法仅考虑单次交互的偏好,而本文提出的方法通过模拟额外交互并基于最终响应的效用进行标注。具体步骤如下:
提供输入查询和多个候选澄清问题及直接回答。
让标注者对每个澄清问题提供最佳澄清答案。
展示模型的最终输出预测,标注者根据最终输出与预期解释的匹配程度进行偏好标注。
聚合多个标注者的偏好,选择最多用户偏好的响应作为最终偏好。
自动评估框架:为了评估系统在多回合交互中的表现,本文开发了一个自动评估框架,包括用户模拟模型和自动评估指标。评估系统在两个维度上进行:效率(模型回合数)和有效性(预测答案集与用户期望答案集的F1分数)。
模型训练:使用标准的RLHF训练管道,首先构建一个以澄清回答为目标的指令调优数据集,然后在该数据集上进行监督微调(SFT),最后在澄清问题和直接回答之间进行偏好学习。
实验设计
实验使用了NaturalQuestions (NQ-Open) 和 AmbigQA 数据集。NQ-Open 包含谷歌搜索查询的问题及其维基百科答案,AmbigQA 包含NQ-Open中标注为模糊的查询及其额外答案。
从NQ-Open训练集中生成SFT训练数据,使用基LLM(Llama2-7b、Gemma-7b、Llama3-8b)生成可行答案集,包括人类标注的答案和模型预测的答案。
在SFT训练中,使用学习率5e-5和批量大小32,训练5个epoch。在DPO训练中,使用KL正则化因子0.1和学习率5e-6,训练2个epoch。
结果与分析
在AmbigQA测试集上,使用双回合偏好标注方法训练的系统在答案F1上比直接回答模型提高了4-5%。此外,双回合偏好标注方法还可以训练系统判断何时需要澄清。
比较了使用人类标注答案和模型预测答案生成的SFT数据集,结果表明使用模型预测答案的数据集在提升澄清问题质量方面更有效。
尝试使用单一LLM同时进行澄清和回答任务,结果显示整体性能有所下降,但仍优于单回合偏好标注方法。
总体结论
本文提出了一种新的双回合偏好标注方法,用于训练LLMs在多回合交互中询问澄清问题。实验结果表明,该方法显著提高了LLMs在处理模糊请求时的性能,并使其能够更灵活地应对不同用户的解释。未来的工作可以进一步扩展到多回合交互和更复杂的对话行为。