代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

文摘 2024-11-28 17:42 山西

LLM作为智能的基座，可以衍生出各种能力。

代码能力就是其中一种：程序补全、注释、优化、修bug、测试等等。

而想要充分发挥LLM的巨大潜力，指令调优（Instruction Tuning）是至关重要的一步。

当前，高质量指令数据主要有两个来源：人工注释和蒸馏。

前者很贵，后者则受到限制。于是，人们开始另辟蹊径。

近日，来自UIUC、伯克利等机构的研究人员提出了SelfCodeAlign。

这篇工作首次证明了，可以通过自对齐（Self-Alignment）来获得强大的代码模型，不需要人工注释或者蒸馏，而且效果更好！

论文地址：https://arxiv.org/pdf/2410.24198

SelfCodeAlign在整个数据生成过程中，使用相同的基础模型进行推理，分为三步：

首先，从高质量的种子片段中提取不同的编码概念，以生成新任务。

然后，对每个任务的多个响应进行采样，将每个响应与测试用例配对，并在沙盒环境中对其进行验证。

最后，选择验证通过的示例来进行指令调优。

SelfCodeAlign是第一个完全透明的pipeline，使用纯自生成的指令数据对基础代码模型进行自对齐。

实验表明，使用SelfCodeAlign对CodeQwen1.5-7B进行指令微调，在HumanEval+上实现了67.1 pass@1，超过了参数量大10倍的CodeLlama-70B-Instruct。

在全部的三项基准测试（代码生成、数据科学编程、代码编辑）中，SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。

此外，在HumanEval+上，SelfCodeAlign的性能超越了基于GPT-3.5-Turbo的蒸馏方法（包括 OSS-Instruct（61.6）和Evol-Instruct（59.1）），甚至打败了GPT-4o的直接输出蒸馏（65.9）！

这意味着，从模型自己的数据分布对齐中学习，可能胜于使用强大的teacher模型。

SelfCodeAlign适用于各种规模（从3B到33B）的LLM，比如StarCoder2-Struct就是以此为基础创建的（base model为StarCoder2-15B）。

自对齐代码生成

下图以StarCoder2-15B的指令调优过程为例，展示了SelfCodeAlign的流程：

种子选择

SelfCodeAlign首先从The Stack V1中收集一组种子代码片段。

此步骤中，确保种子片段多样化且高质量至关重要，它们将用作生成说明和响应的起点。

为了收集种子片段，研究人员从The Stack V1中提取所有带有文档字符串的Python函数，然后应用一系列过滤规则来确保种子片段的质量。

通过运行Pyright类型检查器、删除基准项、过滤掉文档质量差的函数，以及删除几乎重复的函数，总共从5M个函数中过滤出250k个Python函数。

概念生成

收集种子函数后，开始执行Self-OSS-Instruct，对OSS-Instruct的自对齐进行修改，以生成不同的指令。

具体来说，这里采用上下文学习（In-context learning）让基础模型从给定的种子代码片段中自行生成指令。

### System : I - > R You are an extremely intelligent AI coding assistant . Please provide an accurate and reliable response to each user instruction . After delivering your response , verify its consistency and correctness by writing a series of executable tests . ### System : C - > I Create a series of independent coding tasks that are original , distinct , diverse , and high - quality , fostering logical thinking . Each task must adhere to specified properties : - category : the type of task ( e . g . , function implementation , class implementation , or program implementation ) - language : the programming language to be used - difficulty : the complexity level of the task ( e . g . , easy , medium , or hard ) - concepts : fundamental principles and techniques the task is designed to incorporate , which developers must understand to effectively solve the task Design the tasks so that the relevant concepts emerge naturally as the most appropriate solutions , without explicitly mentioning that a particular concept should be used .

作者使用了21个精心设计的示例来教模型如何工作:

指令生成过程分为以下两个步骤：

概念提取：对于每个种子函数，提示基本模型生成函数中存在的代码概念列表。代码概念是指编程中使用的基本原则和技术，例如模式匹配和数据类型转换。

指令生成：提示基本模型根据已识别的代码概念和两个附加属性（难度和类别）自生成编码任务，随机抽样以丰富生成指令的多样性。

执行筛选

根据Self-OSS-Struct生成的指令，下一步是将每条指令与高质量teacher模型（比如GPT-4）相匹配。

不过，很多强大的商业模型不允许用蒸馏来做这种事，而且，teacher模型也不一定就更加厉害，毕竟老师也会犯错误，这时就会起到负作用。

作者建议，明确指示模型在产生与自然语言交错的响应后，生成用于自我验证的测试来自对齐基本模型。

具体来说，对于每个指令，基本模型对格式的多个输出（响应、测试）进行采样，然后过滤掉那些在沙箱环境中测试失败的响应。然后，为每个指令随机选择一个验证通过的响应，应用于最终的指令微调数据集。

实验评估

本文全面评估了SelfCodeAlign在各种编码任务中的表现，包括：

函数生成：给定自然语言描述，要求LLM生成一个自包含函数，并测试函数的正确性和效率。

类生成：给定一个包含类级和方法级信息的代码框架，要求LLM生成类及其方法。

数据科学编程：给定数据科学任务的描述和部分代码片段，要求LLM完成代码片段以通过相应的测试。

文件级代码编辑：提供文件内容后，要求模型按照自然语言指令编辑程序。

函数级代码生成

公平起见，比较对象为类似规模的最先进的开源模型，基准测试选择LiveCodeBench。

LiveCodeBench是无污染评估的基准，包含2023年5月至2024年2月期间的400项最新Python算法挑战。这些任务来自Codeforce和LeetCode等网站，每个网站平均有20多个测试用例。

上表报告了在3个特定开始日期之后创建的问题的测试结果（pass@1）。SelfCodeAlign-CQ-7B的性能始终优于大多数基线模型。

此外，将开始日期向前移动对SelfCodeAlign-CQ-7B的影响很小，这表明模型不太可能受到污染。

类级代码生成

这里使用ClassEval评估类级代码生成的能力，ClassEval是100个类级Python代码生成任务的集合，涵盖100个类和410个方法，平均每个类33个测试，每个方法有8个测试。

作者将最大上下文大小设置为2048个token，测试了三种生成策略中每个模型的最佳类级pass@1（以及相应的方法级pass@1）：

1. 整体生成：在给定类框架的情况下生成整个类；
2. 增量生成：将早期生成的方法放在提示符中来迭代生成类方法；
3. 组合生成：独立生成每个类方法，不查看其他方法。

上表中的类级pass@1需要同时生成正确的类和方法，而方法级pass@1仅检查生成的方法是否能通过方法级测试。

上表的结果显示，就类级性能而言，SelfCodeAlign-CQ-7B是表现最好的，不论是相比于开源指令微调模型，还是使用未知或专有指令微调数据的模型。

数据科学

DS-1000包含7个流行的Python数据科学库中1000个现实数据科学挑战。在这个基准测试中，模型必须完成部分代码片段才能解决问题。

上表显示，尽管SelfCodeAlign-CQ-7B只使用了有限的数据科学代码进行训练，但在与一众模型的比较中仍然表现出色。

代码编辑

代码编辑任务选用CanItEdit作为基准测试，该基准测试由三种类型的210个代码编辑任务（每种类型70个任务）组成：纠正（修复错误）、自适应（添加新功能）和完善（改进现有功能）。

对于每个任务，模型需要以原始代码片段和描述所需代码更改的自然语言指令作为输入，生成满足指令的代码片段。遵循原始基准测试中的设置，在0.2的温度下为每个任务进行20次测试。

上表报告了每种类型的pass@1以及所有任务的平均成绩。尽管没有专门针对代码编辑进行调优，但SelfCodeAlign-CQ-7B在CanItEdit上表现出强大的性能，实现了39.0%的pass@1，优于除CodeQwen1.5-Chat以外的所有模型。

参考资料：

https://x.com/YuxiangWei9/status/1852421529897972207

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：新智元

http://mp.weixin.qq.com/s?__biz=MzU1NTUxNTM0Mg==&mid=2247577033&idx=3&sn=19180a1eda0c45dcfeaf262fa8c21701

机器学习研究组订阅

机器学习研究会由百度七剑客雷鸣先生创办，旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课，广泛的和高校、企业、创业、VC开展合作，自身也参与优秀AI项目的投资和孵化。

最新文章

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

基于LLM Graph Transformer的知识图谱构建技术研究：LangChain框架下的文本-图谱双模式转换机制实践

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

【阿姆斯特丹博士论文】在视觉挑战条件下的多模态学习

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

基于MCMC的贝叶斯营销组合模型评估方法论：系统化诊断、校准及选择的理论框架

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

逼真到离谱！1000个人类「克隆」进西部世界，AI相似度85%细节太炸裂

Mistral放大招！124B多模态巨无霸登场，免费版ChatGPT震撼突袭

一文解读：时序基础模型的缩放定律

OpenAI「23个黑手党」出走创业，融资近百亿！华人科学家约占1/3

10种数据预处理中的数据泄露模式解析:识别与避免策略

「谍战」开启！基建狂魔马斯克122天交付10万卡超算，对手大恐慌派间谍飞机侦查

14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

Github上的十大RAG(信息检索增强生成)框架

斯坦福伯克利重磅发现DNA Scaling Law，Evo荣登Science封面！AI设计DNA/RNA/蛋白质再突破

ChatGPT深夜两弹更新！macOS版联动三款IDE无缝编程，Windows版全量上线

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

OpenAI总裁出走3月终于归来！Greg结束「最长假期」专注重大技术挑战，每周狂肝100小时代码

Transformer打破三十年数学猜想！Meta研究者用AI给出反例，算法杀手攻克数学难题

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

扩散模型失宠？端侧非自回归图像生成基础模型Meissonic登场，超越SDXL！

Scaling Law撞墙，AI圈炸锅了！OpenAI旗舰Orion被曝遭遇瓶颈，大改技术路线

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉