阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

科技 2024-12-06 12:39 北京

论文标题：

IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization

论文作者：

张兴华，余海洋，阜成，黄非，李永彬

论文链接：

https://arxiv.org/abs/2411.06208

代码链接：

https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/IOPO

背景

在大语言模型时代，随着越来越多的需求基于大模型进行 Agent 和业务应用的构建，这些需求在真实场景中往往比较复杂，导致指令的复杂性也在迅速增加，对大模型的领域知识和指令遵循能力提出了更高的要求。然而，目前仅有少量的复杂指令评测集，并缺少针对性提升模型复杂指令遵随能力的方法。

为了解决上述问题，本研究构建了复杂指令 benchmark TRACE，用于改善和评估模型的复杂指令遵循能力，其包含 12 万条训练数据和1千条评测数据。

进一步，本文提出了 IOPO（Input-Output Preference Optimization），使 LLM 在学习 Response（Output）偏好的同时细致探索指令（Input）偏好。具体来说，IOPO 不仅将指令作为输入来直接学习 Response 偏好，且基于相同的 Response 深入探索指令差异，以促进对细粒度约束的有效感知。

实验结果证明，本文在 TRACE 训练集上进行 IOPO 偏好对齐训练，相比 DPO，在 TRACE 域内评测数据和域外通用复杂指令评测数据上均取得了显著提升。

TRACE基准

2.1 构建流程

SFT 数据构建

1）约束类型体系构建：从大量开源的简单指令中基于 LLM 归纳指令类型，再经过人工专家归纳总结出 5 大类 26 小类约束类型体系。

2）约束扩展：基于约束类型，提示 LLM 将简单指令扩展为包含多个约束的复杂指令。

3）指令结构化：从扁平的复杂约束指令文本数据中，抽取出任务描述、任务约束、任务输入，实现复杂约束指令输入的结构化表示。

4）指令控制：提示 LLM 对扩展后指令进行冗余、不完整等质量控制，确保扩展后复杂指令的合理性。

5）Response 生成与评估：基于校验后的指令，提示 LLM 生成对应的 Response；利用 LLM 评估 Response 对指令中多种约束的遵循能力，并选取遵循指令中所有约束的 Response，形成 SFT 指令数据。

IOPO 偏好数据构建

1）针对扩展的指令，基于 LLM 等通过增删改操作修改中的约束得到，使不再满足中的约束。

2）提示 LLM 产生满足约束但不满足约束的 Response 。

3）通过 LLM 评估的质量，确保其相比，更好地遵循中的约束。

2.2 数据统计

TRACE 总共包含 119,345 条指令数据用于模型训练，1,042 条指令数据用于评测。其中，每条指令中的约束数量范围为 1～15，训练和评测集的平均约束数量分别为 4.36 和 4.89。

IOPO偏好对齐算法

RLHF 以及衍生出来的如 DPO 等一系列对齐算法，都是基于输入去探索输出，在细粒度复杂约束指令场景中难以高效感知中的细粒度约束，因此如果在基于去探索的同时，也能够基于去探索更优的，去感知中的细粒度约束，将能够提升细粒度复杂约束指令场景中的对齐效果。

IOPO 构造在指令约束方面具有细微差异的输入（, ），对应的输出为（, ），得到四个相应的偏好对（, ）、（, ）、（, ）和（, ），然后可以形成偏好组对（ = {<, >, <, >}, = {<, >, <, >}），IOPO 的优化目标如下：

推导过程

如 DPO 中推导，reward 函数可以用策略模型进行表示

其中，。

Bradley–Terry Model 是 item、group 或 object 之间成对比较结果的概率模型，给定一对目标和，其公式如下：

其中，为赋予的正值分数，表示相比更偏好。

因此，针对和对，定义的赋予分数，为，得到针对偏好组对和的 BT 公式：

将代入得到：

最后可以对参数化的策略模型形式化最大似然损失如下：

实验结果

本文在域内数据 TRACE 以及公开的复杂指令数据 IFEval 和 CFBench 域外评测数据上进行实验，以 Qwen2-7B-Instruct 和 Llama3.1-8B-Instruct 为基座模型，在 TRACE 训练集上分别进行SFT、DPO、IOPO 等实验。

▲ 表1: 域内和域外复杂指令评测集上的实验结果

仅在 TRACE 训练集上调优得到的 IOPO 模型，直接在域内评测集 TRACE 和域外的IFEval、CFBench 上进行评测，IOPO 相比 SFT、DPO 在域内和域外均具有显著优势，证明了 IOPO 良好的泛化能力以及建模输入偏好的必要性。

IOPO 相比 DPO 会消耗更多的 token，为探究这一因素的影响，本文将 IOPO 训练数据适配到 SFT 和 DPO 进行训练，确保其具有相同数量的训练 token，分别记为 SFT 和 DPO。

▲ 图1: Qwen2-7B上相同token量下的性能比较

▲ 图2: Llama3.1-8B上相同token量下的性能比较

从上图可以看出，SFT 和 DPO 的性能相比 SFT 和 DPO 有升有降，并且 IOPO 仍然具有明显的优势，证明了 IOPO 性能的提升不是主要来自于消耗更多的训练 token，而是受益于更优异的输入输出偏好的约束感知建模能力。

结语

大语言模型的迅速发展，促使其在软件设计、agent 构造等方面获得广泛应用，但随之而来的是指令复杂度的迅猛增长，持续提升模型的复杂指令遵循能力对大模型的落地应用具有重要的研究价值。

IOPO 通过考虑指令输入和 Response 输出中的偏好，在直接学习 Response 偏好的同时更细微的感知指令中的细粒度约束，显著提升了 LLM 遵循复杂指令的能力。

参考文献

[1] Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. 2023. Direct preference optimization: Your language model is secretly a reward model. Proceedings of NeurIPs.

[2] Ralph Allan Bradley and Milton E Terry. 1952. Rank analysis of incomplete block designs: I. the method of paired comparisons. Biometrika, 39(3/4):324–345. [3] David R. Hunter. 2004. MM algorithms for generalized Bradley-Terry models. The Annals of Statistics, 32(1):384 – 406.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

​阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力