快速构建copilot私域模型精调/评测语料，训出你自己的copilot不是梦

文摘 2024-09-30 23:53 江苏

自从github copilot兴起之后，各家copilot都如雨后春笋一样冒了出来，百度的comate、阿里的tongyilingma、智谱的codegeex、非十的fitten code等，各有各的长处，百家争鸣、各显神通。

但是这些商业copilot背后的模型无一都有一个命门，那就是在通用知识的补全上效果明显，甚至有宣传采纳率可以达到46%(全部or部分接纳候选代码的次数/推荐代码次数)，姑且认可这个数据（毕竟是要卖产品，厂家声明的数据，人之常情，不寒碜，能理解）。但是对于私域知识，补全效果总是差强人意，但是私域代码在实际项目中占比一般都超过30%，修改频度和难度都是最高，这部分对项目来说相对更重要，这部分该如何提升呢？

答案就是训练一个私域补全模型，再挂若干本地知识库，就可以轻量级解决私域代码补全效果的问题。

训练私域模型，最重要的就要有足够数量（一般7b模型要过w条才有效）的高质量的评测语料+分场景的高质量的评测语料。

大家知道标注语料（无论是精调语料还是评测语料）都是妥妥的吞金兽，需要耗费巨大的人力物力。

而且发动大规模的人力标注，在巨量语料的情况下，语料质量很难拉齐，即使通过自动化脚本检查，也只能检测语料规范和类型等不一致问题，对于语料业务语义正确性则很难检测。

另外，语料重复性也是个巨大问题，往往人工海量标注以后，看似巨量的精调语料，经过去重工具去重后，只能预留20%甚至更少。

有没有低成本高质量的办法构建低重复度的精调+评测语料呢？

这里也不卖关子了，把我们研究的精调+评测语料自动生成方法给大家介绍下，希望大家能够借鉴。

本质就是模拟开发人员实际工作中代码补全的场景，就是利用git commit log自动生成语料（包括精调语料和评测语料）。

一、精调语料

1、采集某一个特定时间点之前（三个月前），一定时期的git commit log（比如半年或一年）

2、取其中merge合入代码作为补全expected

3、expected前后代码按比例作为prefix和suffix代码

4、上述2和3中的外部依赖（宏定义、结构体定义、函数定义、全局变量）抽取到dependence字段中

5、从当前文件、兄弟文件、文件名相似文件（jaccard，比如门限0.25）中抽取2和3中的最相似代码放入similar字段

6、每条语料都生成行内补（占比70%）、单行补、多行补、函数签名补、注释补（如果有注释）

7、语料包含变量声明、函数调用、函数返回、结构体赋值、分支语句等类型。

以上都可以用脚本扫描代码库生成，后续还可以通过语料生成流水线自动生成增量语料。

本次实验我们生成精调语料43k条。语料有了，无非就是llama pro进行预训练和fim+格式精调，甚至直接fim格式预训练不精通也能取得不俗的效果。

二、评测语料

首先需要进行评测模型的能力维度设计，我们私域代码补全主要应用于三类场景：

1、存量代码维护（占比70%）

2、存量代码新增功能（20%）

3、全新功能（10%）。

评测语料针对上述场景设计，具体为：

针对1，从精调语料进行均匀抽取10%作为评测集，为了防止评测污染，这部分评测集不会进行精调。

针对2，会选取精调语料截止日期后的git commit log进行生成，防止模型见过完全一致的代码，当然，精调语料中可能还会有些类似代码。

针对3，从精调语料截止日期后的非本模块代码库git commit log生成，模型完全没有见过类似代码，评测模型的泛化能力。

三、模型侧评测

模型	存量代维护评测集（4.8k）	存量代码新增功能评测集（2k）	全新功能评测集（2.8k）
m1-7b-pretrain	0.532	0.56	0.472
m-7b-sft	0.608	0.589	0.487

从预训练和精调效果，评测集评测结果和我们的预期基本一致，初步判定7b模型可用，当然还需插件侧端到端评测和用户实际试用反馈良好才能上线。

综上，可以看出低成本+高质量精通语料和评测语料是模型效果的关键，希望本文做法给大家以启迪。

http://mp.weixin.qq.com/s?__biz=MzI1OTkwMTM1Nw==&mid=2247484679&idx=1&sn=16f9bde995f1595aca898a4a993edadb

丁辉的软件架构说

代码匠艺，软件系统架构，AI平台和应用，生活趣事。

最新文章

如何用好代码copilot

快速构建copilot私域模型精调/评测语料，训出你自己的copilot不是梦

Rust语言在电信领域应用分析（值Rust规模推广之际修订）

结合架构设计范式讲清大模型copilot推理高并发架构设计

大模型编码提效场景选择的底层逻辑

大模型编码目前最有效的模式

手把手教你低成本训一个好用场景小模型，包教包会，提供全部细节

大模型编码提效笑靥如花，刨根问底有几朵？

程序猿如何完美避开大模型的坑从而如虎添翼

遗留代码中如何使用大模型新增功能

强私域场景大模型编程避坑指南（必读）

TDD湖水下的岩石（二）：TDD驱动的是设计

自己搓一个编码大模型，凑齐语料就OK

从架构看架构师

程序员不会被大模型替代，只会被更会用大模型的同行替代。不想被替代的速看代码生成确定性prompt怎么做！！！

说透GPU，让你欢喜让你忧

一字之差大幅提升程序员的效率，不信请看

chatGPT的撒手锏&阿喀琉斯之踵:学了才能用好chatGPT

软件系统高可靠性兜底思路

专为程序员打造的深度学习课，手把手从零码一个AI神经网络，让你从零到进阶

低代码如何不变成高代码

实战案例学习DDD建模，串点成树(一):幼宠销售小程序

定义问题中的常见误导（过早抽象&以方案代替问题）和纠偏

三三制-组织创新助力研发提效

DDD快速建模和实现：BC划分三板斧和加强版访问者模式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉