这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

科技 2024-11-23 12:38 辽宁

机器之心报道

编辑：Panda、张倩

开源模型阵营又迎来一员猛将：Tülu 3。它来自艾伦人工智能研究所（Ai2），目前包含 8B 和 70B 两个版本（未来还会有 405B 版本），并且其性能超过了 Llama 3.1 Instruct 的相应版本！长达 73 的技术报告详细介绍了后训练的细节。

在最近关于「Scaling Law 是否撞墙」的讨论中，后训练（post-training）被寄予厚望。

众所周知，近期发布的 OpenAI o1 在数学、代码、长程规划等问题上取得了显著提升，而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。基于此，有人认为，新的扩展律 —— 后训练扩展律（Post-Training Scaling Laws）已经出现，并可能引发社区对于算力分配、后训练能力的重新思考。

不过，对于后训练到底要怎么做，哪些细节对模型性能影响较大，目前还没有太多系统的资料可以参考，因为这都是各家的商业机密。

刚刚，曾经重新定义「开源」并发布了史上首个 100% 开源大模型的艾伦人工智能研究所（Ai2）站出来打破了沉默。他们不仅开源了两个性能超过 Llama 3.1 Instruct 相应版本的新模型 ——Tülu 3 8B 和 70B（未来还会有 405B 版本），还在技术报告中公布了详细的后训练方法。

Ai2 研究科学家 Nathan Lambert（论文一作）的推文

这份 70 多页的技术报告可以说诚意满满，非常值得详细阅读：

Tülu 3 发布后，社区反响热烈，甚至有用户表示测试后发现其表现比 GPT-4o 还好。

另外，Nathan Lambert 还暗示未来可能基于 Qwen 来训练 Tülu 模型。

机器之心也简单测试了下 Tülu。首先，数 Strawberry 中 r 数量的问题毫无意外地出错了，至于其编写的笑话嘛，好像也不好笑。

本地部署 AI 模型的工具 Ollama 也第一时间宣布已经支持该模型。

机器之心也简单通过 Ollama 和 Obsidian 的插件简单体验了一下 8B 的本地版本，看起来效果还不错，速度也很快。

不过，比模型性能更值得关注的或许还是 Tülu 3 的后训练方案。在这套方案的启发下，众多研究者有望在大模型的后训练阶段进行更多尝试，延续大模型的 Scaling Law。

首个发布后训练详情的开源模型

在提升模型性能方面，后训练的作用越来越大，具体包括微调和 RLHF 等。此前，OpenAI、 Anthropic、Meta 和谷歌等大公司已经大幅提升了其后训练方法的复杂度，具体包括采用多轮训练范式、使用人类数据 + 合成数据、使用多个训练算法和训练目标。也正因为此，这些模型的通用性能和专业能力都非常强。但遗憾的是，他们都没有透明地公开他们的训练数据和训练配方。

到目前为止，开源后训练一直落后于封闭模型。在 LMSYS 的 ChatBotArena 排行榜上，前 50 名（截至 2024 年 11 月 20 日）中没有任何一个模型发布了其后训练数据。即使是主要的开放权重模型也不会发布任何数据或用于实现这种后训练的配方细节。

于是，Ai2 似乎看不下去了，决定开源一切！

Tülu 3 模型之外，Ai2 还发布了所有的数据、数据混合方法、配方、代码、基础设施和评估框架！

模型：https://huggingface.co/allenai
技术报告：https://allenai.org/papers/tulu-3-report.pdf
数据集：https://huggingface.co/collections/allenai/tulu-3-datasets-673b8df14442393f7213f372
GitHub：https://github.com/allenai/open-instruct
Demo：https://playground.allenai.org/

下表展示了 Ai2 开源的模型、数据集和代码：

Ai2 表示，Tülu 3 突破了后训练研究的界限，缩小了开放和封闭微调配方之间的性能差距。

为此，他们创建了新的数据集和新的训练流程。他们还提出了直接使用强化学习在可验证问题上训练的新方法，以及使用模型自己的生成结果创建高性能偏好数据的新方法。

加上更多优化细节，得到的 Tülu 3 系列模型明显优于同等规模的其它模型。

8B 模型在各基准上的表现

70B 模型在各基准上的表现

Tülu 3 是如何炼成的？

Ai2 在预训练语言模型的基础上，通过四个阶段的后训练方法生成 Tülu 3 模型（见图 1）。这套训练流程结合了强化学习中的新算法改进、尖端基础设施和严格的实验，以便在各个训练阶段整理数据并优化数据组合、方法和参数。

这些阶段如下：

阶段一：数据整理。Ai2 整理了各种提示（prompt）信息，并将其分配到多个优化阶段。他们创建了新的合成提示，或在可用的情况下，从现有数据集中获取提示，以针对特定能力。他们确保了提示不受评估套件 Tülu 3 EVAL 的污染。

阶段二：监督微调。Ai2 利用精心挑选的提示和回答结果进行监督微调（SFT）。在评估框架指导下，他们通过全面的实验，确定最终的 SFT 数据和训练超参数，以增强目标核心技能，同时不对其他技能的性能产生重大影响。

阶段三：偏好微调。Ai2 将偏好微调 —— 特别是 DPO（直接偏好优化）—— 应用于根据选定的提示和 off-policy 数据构建的新 on-policy 合成偏好数据。与 SFT 阶段一样，他们通过全面的实验来确定最佳偏好数据组合，从而发现哪些数据格式、方法或超参数可带来改进。

阶段四：具有可验证奖励的强化学习。Ai2 引入了一个新的基于强化学习的后训练阶段，该阶段通过可验证奖励（而不是传统 RLHF PPO 训练中常见的奖励模型）来训练模型。他们选择了结果可验证的任务，例如数学问题，并且只有当模型的生成被验证为正确时才提供奖励。然后，他们基于这些奖励进行强化学习训练。

Tülu 3 pipeline 的主要贡献在于数据、方法、基础设施的改进和严格的评估。其中的关键要素包括：

数据质量、出处和规模：Ai2 通过仔细调查可用的开源数据集、分析其出处、净化来获取提示，并针对核心技能策划合成提示。为确保有效性，他们进行了全面的实验，研究它们对评估套件的影响。他们发现有针对性的提示对提高核心技能很有影响，而真实世界的查询（如 WildChat）对提高通用聊天能力很重要。利用 Tülu 3 EVAL 净化工具，他们可以确保提示不会污染评估套件。

创建多技能 SFT 数据集。通过利用不同数据混合结果进行几轮有监督微调，Ai2 优化了「通用」和「特定技能」类别中提示的分布。例如，为了提高数学推理能力，Ai2 首先通过创建数学专业模型在评估套件中建立一个上限，然后混合数据，使通用模型更接近这个上限。

编排一个 On-Policy 偏好数据集。Ai2 开发了一个 on-policy 数据编排 pipeline，以扩展偏好数据集生成。具体来说，他们根据给定的提示从 Tülu 3-SFT 和其他模型中生成完成结果，并通过成对比较获得偏好标签。他们的方法扩展并改进了 Cui et al. [2023] 提出的 off-policy 偏好数据生成方法。通过对偏好数据进行精心的多技能选择，他们获得了 354192 个用于偏好调整的实例，展示了一系列任务的显着改进。

偏好调整算法设计。Ai2 对几种偏好调整算法进行了实验，观察到使用长度归一化（ length-normalized）直接偏好优化的性能有所提高。他们在实验中优先考虑了简单性和效率，并在整个开发过程和最终模型训练中使用了长度归一化直接偏好优化算法，而不是对基于 PPO 的方法进行成本更高的研究。

具有可验证奖励的特定技能强化学习。Ai2 采用了一种新方法，利用标准强化学习范式，针对可以对照真实结果（如数学）进行评估的技能进行强化学习。他们将这种算法称为「可验证奖励强化学习」（RLVR）。结果表明，RLVR 可以提高模型在 GSM8K、MATH 和 IFEval 上的性能。

用于强化学习的训练基础设施。Ai2 实现了一种异步式强化学习设置：通过 vLLM 高效地运行 LLM 推理，而学习器还会同时执行梯度更新。并且 Ai2 还表示他们的强化学习代码库的扩展性能非常好，可用于训练 70B RLVR 策略模型。

Tülu 3 的表现如何？

为了评估 Tülu 3 以及其它模型，Ai2 设计了一套评估框架，其中包含一个用于可重复评估的开放评估工具包、一套用于评估指令微调模型的核心技能的套件（具有分立的开发和留存评估），以及一组推荐设置（基于 Ai2 对各种模型的实验）——Ai2 称之为 Tülu 3 Evaluation Regime。

除了评估最终模型，该框架还是一个开放的评估工具套件，旨在通过精心挑选的评估套件和净化工具来引导开发进度。

下面展示了一些主要的评估结果。可以看到，同等规模性，在这些基准上，Tülu 3 的表现非常出色，其中 70B 版本的平均性能甚至可与 Claude 3.5 Haiku 比肩。

此外，Ai2 还提出了两个新的评估基准：IFEval-OOD 和 HREF。

IFEval-OOD 的目标是测试 LLM 遵从精确指令的能力，以及它们是否能够遵从超出 IFEval 中包含的 25 个约束的指令约束。IFEval-OOD 包含 6 大类 52 个约束。

HREF 的全称是 Human Reference-guided Evaluation of instruction Following，即人类偏好指导的指令遵从评估，其目标是自动评估语言模型遵从指令的能力。HREF 专注于语言模型通常训练的 11 个指令遵从任务，即头脑风暴、开放式 QA、封闭式 QA、提取、生成、重写、总结、分类、数值推理、多文档合成和事实核查。

下表给出了 Tülu 3 与对比模型在这两个新基准以及其它已有基准上的表现，具体涉及的领域包括知识调用、推理、数学、编程和指令遵从。需要注意，这些都是 Unseen 基准，即这些任务是模型训练过程中未见过的。

安全性方面，以下两表展示了 Tülu 3 与对比模型在两个基准上的安全分数。整体而言，同等规模下，Tülu 3 相较于其它开源模型更有优势。

最后必须说明，长达 73 页的 Tülu 3 技术报告中还包含大量本文并未提及的细节，感兴趣的读者千万不要错过。

参考链接：

https://allenai.org/blog/tulu-3?includeDrafts

https://x.com/natolambert/status/1859643351441535345

https://www.interconnects.ai/p/tulu-3

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650944022&idx=1&sn=c9ab438daa0a315f9a395878a317edfe

机器之心

专业的人工智能媒体和产业服务平台

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉