ACL 2024 | BPO：灵活的 Prompt 对齐优化技术

文摘 2024-08-05 17:57 北京

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

并非所有人都熟知如何与 LLM 进行高效交流。

一种方案是，人向模型对齐。于是有了「Prompt工程师」这一岗位，专门撰写适配 LLM 的 Prompt，从而让模型能够更好地生成内容。

而另一种更为有效的方案则是，让模型向人对齐。这也是大模型研究中非常重要的问题，无论是 GPT 还是 Claude，在对齐技术上花费大量的时间与精力。但，随着模型规模变大，基于训练的对齐技术也需要耗费更大量的资源。

因此，我们提出另外的一种方案，即黑盒提示对齐优化技术（Black-box Prompt Optimization），通过优化用户指令，从输入角度对模型进行对齐。

这种方法可以在不对 LLM 进行训练的情况下，大幅提升与人类偏好的对齐程度。

而且 BPO 可以被替换到各种模型上，包括开源模型和基于API的模型。

下面是我们做的一个简单评估：

在 VicunaEval 上使用 GPT-4 进行自动评估，BPO 能够大幅提升 ChatGPT、Claude 等模型的人类偏好，并助力 llama2-13b 模型大幅超过 llama2-70b 的版本。

论文：https://arxiv.org/abs/2311.04155

代码：https://github.com/thu-coai/BPO

一、方法

BPO黑盒优化的目标是让模型更好地理解和满足人类的喜好。我们通过调整输入内容，使模型生成的输出更符合用户的期望。这个过程可以分为三个主要步骤：

1、反馈数据收集：为了建模人类偏好，我们首先搜集了一系列带有反馈信号的开源指令微调数据集，并对这些数据经过精心筛选和过滤。

2、构造提示优化对：我们使用这些反馈数据来引导大型模型识别出用户偏好的特征。我们首先让模型分析用户喜欢的回复和不喜欢的回复，找出其中蕴含的人类偏好特征。接着，基于这些特征，我们再利用模型优化原始的用户输入，以期得到更符合用户喜好的模型输出。

3、训练提示优化器：经过步骤一和步骤二，我们得到了大量隐含人类偏好的提示对。利用这些提示对，我们训练一个相对较小的模型，从而构建提示偏好优化器。

最终，我们可以利用该提示优化器对用户指令进行优化，并应用在广泛的LLM上。

二、效果

我们基于英文部分开源反馈数据集和 llama2-chat-7b 构建了 BPO 优化模型。

BPO对齐技术对 GPT-3.5-turbo 有22%的提升，对 GPT-4 有 10% 的提升。

BPO 能够助力 llama2-13b 大幅超过 llama2-70b 版本的模型效果，并让 llama2-7b 版本的模型逼近比它大 10 倍的模型。

在 vicuna-7b 和 vicuna-13b 上，使用 BPO 对齐的模型超过了常用的反馈学习方法—— PPO（Proximal Policy Optimization）和 DPO（Direct Preference Optimization）的效果，并且能够和这些方法相结合进一步提升模型效果。

此外，BPO还可以用于提升SFT数据的质量，帮助构建更高质量的SFT模型。

三、研究者说

问：BPO 和反馈学习方法（PPO、DPO）以及 Prompt Engineering方法（如OPRO）的区别是什么？

答：与PPO和DPO相比，BPO最大的优势在于不需要训练原本的LLM，只需要额外训练一个较小的模型即可，并且我们的实验证明这两种技术是可以相结合的。

与 OPRO 对比，BPO 最大的特点在于更加通用，OPRO 等现有的 Prompt Engineering 技术大多需要针对特定的数据进行搜索，并且会搜索得到一个针对特定任务的提示。因此，如果用户希望使用此类方法，需要针对每种任务准备相应的数据集。而 BPO 在训练得到提示优化器后，可以优化各种用户指令。

问：BPO能否针对一条指令进行迭代优化？

答：我们在 VicunaEval 数据上验证了迭代优化指令的效果，大约在第四轮时，优化后的指令对 ChatGPT 效果最好。

问：BPO 究竟对用户指令做了怎样的优化？

答：我们在论文的第五小节总结了BPO的一些常见优化策略，包括：推理解释、完善用户问题、要点提示以及安全增强。

本文转自GLM大模型

点击 阅读原文 观看作者直播讲解回放！

往期精彩文章推荐

ACL 2024｜OlympiadBench: Olympiad-level 的双语、多模态的科学评测集

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1800多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 观看作者直播讲解回放！

http://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247526449&idx=1&sn=a00ddfd8cdbcc5a119f9e8ed4b3961bc

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

最新文章

上亿Token大放送！如何用大模型做好科研？｜11月7日19:00直播

港大打造 LightRAG：让大模型 RAG 高效又便宜

Big Model weekly | 第43期

AgentReview: 利用 LLM Agents 探究同行评审机制

EMNLP2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

论文解读 | ECCV2024 HTCL:用于语义场景补全的分层时序上下文

多模态模型在抽象图表上堪忧，它能充当合格的智能助手么？

今晚19:00 直播 | SIGCOMM 2024 四位一作分享

港大推出「会说话」的推荐系统大模型XRec，从黑盒预测到可解释

SIGCOMM 2024 四位一作分享 | 10月30日19:00

Big Model weekly | 第42期

大模型越狱攻防三部曲：评估、分析与防御

AI的phone use来了，智谱清言上线情感语音模型GLM-4-Voice

NeurIPS 2024 一作讲者招募 | 报名通道持续开放中

《从提示词入门到智能体创造的奥秘》沙龙活动精彩回顾

CNCC 2024 | CCF-智谱大模型创新基金论坛

论文解读 | ECCV2024 一个通用的视频分割框架

仅一行代码，使LLaMA3在知识编辑任务上表现暴涨35%！您确定不来试试嘛？

Big Model weekly | 第41期

论文解读 | ECCV2024 AutoEval-Video：一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月19日精彩继续

造船！一起创造AI大模型的未来|求职人看过来

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月18-19全天直播

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

分布偏移中的监督算法公平性研究 | 五篇顶会论文专题分享

10月16日专题分享 | 分布偏移中的监督算法公平行研究

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

Big Model weekly | 第40期

10名科学家Science联名发文：开源大模型被「误解」了

矩阵略图与流数据机器学习 | 10月15日魏哲巍教授开讲

诺奖或将推动AI“爆炸式”发展，听四位PhD畅谈AI热点及首篇paper背后的故事...

2024年诺贝尔物理学奖｜颁给AI教父！机器学习算物理学？听听诺奖委员会怎么说

SMP 2024 | SMP-智谱大模型交叉学科基金论坛

ECCV'24 | 1步文生图大模型还能“更小更快”，MixDQ量化方法无损“瘦身”扩散模型3倍，提速1.5倍！

OpenTS：全面且公平的时间序列评测基准 | 10月10日15:00 胡吉林教授开讲

Big Model weekly | 第39期

NeurIPS 2024 一作讲者招募 | 报名通道已开启

NIPS 2024 一作讲者招募 | 报名通道已开启

1亿token免费送！越用越省，最高享受1折优惠！10月在BigModel实现大模型自由！

科研大佬投稿顶会的经验分享：时间安排、idea灵感、科研习惯

包云岗：处理器芯片的昨天、今天与明天 | 9月29日10:00

Big Model Weekly | 第38期

KDD2024 最佳学生论文解读 | 中科大、华为诺亚：序列推荐新范式 DR4SR

EMNLP 2024 一作讲者招募 | 报名通道已开启

包云岗：处理器芯片的昨天、今天与明天 | 9月29日10:00

申报倒计时3天丨CCF-智谱大模型创新基金

EMNLP 2024 一作讲者招募 | 报名通道已开启

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉