论文标题:
IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization
张兴华,余海洋,阜成,黄非,李永彬
https://arxiv.org/abs/2411.06208
https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/IOPO
背景
在大语言模型时代,随着越来越多的需求基于大模型进行 Agent 和业务应用的构建,这些需求在真实场景中往往比较复杂,导致指令的复杂性也在迅速增加,对大模型的领域知识和指令遵循能力提出了更高的要求。然而,目前仅有少量的复杂指令评测集,并缺少针对性提升模型复杂指令遵随能力的方法。
为了解决上述问题,本研究构建了复杂指令 benchmark TRACE,用于改善和评估模型的复杂指令遵循能力,其包含 12 万条训练数据和1千条评测数据。
进一步,本文提出了 IOPO(Input-Output Preference Optimization),使 LLM 在学习 Response(Output)偏好的同时细致探索指令(Input)偏好。具体来说,IOPO 不仅将指令作为输入来直接学习 Response 偏好,且基于相同的 Response 深入探索指令差异,以促进对细粒度约束的有效感知。
TRACE基准
SFT 数据构建
1)约束类型体系构建:从大量开源的简单指令中基于 LLM 归纳指令类型,再经过人工专家归纳总结出 5 大类 26 小类约束类型体系。
2)约束扩展:基于约束类型,提示 LLM 将简单指令扩展为包含多个约束的复杂指令。
3)指令结构化:从扁平的复杂约束指令文本数据中,抽取出任务描述、任务约束、任务输入,实现复杂约束指令输入的结构化表示。
4)指令控制:提示 LLM 对扩展后指令进行冗余、不完整等质量控制,确保扩展后复杂指令的合理性。
IOPO 偏好数据构建
2.2 数据统计
IOPO偏好对齐算法
其中,。
▲ 表1: 域内和域外复杂指令评测集上的实验结果
仅在 TRACE 训练集上调优得到的 IOPO 模型,直接在域内评测集 TRACE 和域外的IFEval、CFBench 上进行评测,IOPO 相比 SFT、DPO 在域内和域外均具有显著优势,证明了 IOPO 良好的泛化能力以及建模输入偏好的必要性。
▲ 图2: Llama3.1-8B上相同token量下的性能比较
结语
大语言模型的迅速发展,促使其在软件设计、agent 构造等方面获得广泛应用,但随之而来的是指令复杂度的迅猛增长,持续提升模型的复杂指令遵循能力对大模型的落地应用具有重要的研究价值。
参考文献
[2] Ralph Allan Bradley and Milton E Terry. 1952. Rank analysis of incomplete block designs: I. the method of paired comparisons. Biometrika, 39(3/4):324–345. [3] David R. Hunter. 2004. MM algorithms for generalized Bradley-Terry models. The Annals of Statistics, 32(1):384 – 406.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧