详细教程：自定义大模型之微调ChatGPT

乐活 2024-07-01 22:02 英国

Fine-tuning理论上很复杂，但是OpenAI把这个功能完善到任何一个人看了就能做出来的程度。

我们先从原理入手，你看这张图，左边是Pre-trained LLM （预训练大模型模型），也就是像ChatGPT这样的模型；右边是Fine-tuned LLM （微调过的语言大模型），中间就是进行微调的过程，它需要我们提供一些「ChatGPT提供不了但是我们需要的东西」。

比如说我们这个回答就是想微调一个『使用中国道家思想和语录进行回答的聊天机器人』

这个很好理解，打个比方，你想让ChatGPT输出跟道家高人一样，每句话都希望它能从「周易」「道德经」这样的著作中引经据典。

GPT是做不到的，因为它训练的预料大多数是通用知识，而周易或者道德经这种属于是特定领域的知识，以后不排除它会拿左右的资料进行训练，但是现在的GPT确实做不到。

这个时候就出现了两种解决办法，一种是这个题目问的「Fine-tune微调」，另一种是通过「Prompt engineering特征工程」。

这张图很清楚地说明了这两者的不同，“扳手”指的地方是变化的地方，特征工程只是改变输入，也就是给输入中增加更多的内容，而LLM大模型本身是不变的；而Fine-tune微调它改变的就是LLM本身。

微调不是万能的。

根据OpenAI的官方介绍，微调适用于以下五种情况：

调整写作风格、语气、格式等
提高生成正确结果的稳定性
修正模型在复杂提示下的表现
处理一些特殊的、意外的情况
学习和执行在提示中无法明确说明的新技能或任务

如果你确定你的问题通过prompt engineering解决不了，那么做Fine-Tune的话就是下面几个步骤：

确定进行微调的模型
准备并上传训练数据
训练新的微调模型
评估结果并根据需要是否重新训练
使用您的微调模型

我在对OpenAI的API做微调的时候，碰到的最大问题就在于准备数据集上，因为其他步骤基本是都是自动化的，数据集的质量好坏其实决定了微调后模型的好坏。我失败了好几次的原因就是因为数据集的格式不对，它不是普通的json格式，而是jsonl格式，这一点儿我会在后面单独提到。

我们一步步地进行准备。

第一步：确定进行微调的模型

OpenAI有很多模型，从初代GPT3到现在最新的GPT4o，大多数的模型都有其API，但是并不是所有的大模型都可以进行微调。

真正能进行微调的就是这五个模型:

gpt-3.5-turbo-0125
gpt-3.5-turbo-1106
gpt-3.5-turbo-0613
babbage-002
davinci-002

其中最推荐的就是gpt-3.5-turbo-0125，属于是便宜还好用的一款模型。

第二步：准备并上传训练数据

训练数据分为两种格式，对于gpt-3.5-turbo这个系列，它的训练数据是「对话」格式的。

比如这个例子:

{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already."}]}

这个例子是为了微调一个偶尔回答带有讽刺意味的机器人，我们来分析一下。

它由三部分构成：

❶系统角色设定/system：

内容："Marv is a factual chatbot that is also sarcastic."

分析：定义聊天机器人的角色和行为特点，即“Marv”是一个提供事实但具有讽刺性的聊天机器人。

❷用户输入/user：

内容："What's the capital of France?"

分析：用户提出一个简单的事实性问题，适合测试机器人的知识和回答风格。

❸助手回答/assistant：

内容："Paris, as if everyone doesn't know that already."

分析：

a.事实部分："Paris" 是准确的回答，符合“factual”要求。

b.讽刺部分："as if everyone doesn't know that already." 表达讽刺语气，暗示问题过于简单，符合“sarcastic”要求。

那么回到我们的初始目标，道家思想和回答方式的机器人，那么我们就可以根据上面这个模版做一些训练数据。

系统角色：说明白这个机器人的特点。

我们设定的内容：道言是一个基于道家思想和语录回答问题的聊天机器人

用户输入：这个就可以是任何正常的句子

我们设定的内容：生命的意义是什么？

助手回答：这个是关键，因为你想要让GPT微调成你想要的回答格式，所以你得想一下你希望的输出是什么。

我们设定的内容：生命的意义在于顺其自然。正如老子所说："道法自然。"

在助手回答这里我们的回答是，道家思想的直接回答，以及再加上一个引经据典的操作。

然后完整的训练数据就长这个样子：{"messages": [{"role": "system", "content": "道言是一个基于道家思想和语录回答问题的聊天机器人。"}, {"role": "user", "content": "生命的意义是什么？"}, {"role": "assistant", "content": "生命的意义在于顺其自然。正如老子所说：'道法自然。'"}]}

以此类推，我们可以准备更多的训练数据：{"messages": [{"role": "system", "content": "道言是一个基于道家思想和语录回答问题的聊天机器人。"}, {"role": "user", "content": "如何找到内心的平静？"}, {"role": "assistant", "content": "内心的平静在于清心寡欲。正如庄子所言：'淡泊以明志，宁静以致远。'"}]}

{"messages": [{"role": "system", "content": "道言是一个基于道家思想和语录回答问题的聊天机器人。"}, {"role": "user", "content": "如何面对挫折？"}, {"role": "assistant", "content": "面对挫折，要像水一样柔韧。老子说：'上善若水，水善利万物而不争。'"}]}

一般来说，这样的训练数据最少也得10个，但是最好准备个几十上百个，否则会容易学不到什么东西，提供的内容越多就更容易学。

把训练数据保存为jsonl格式，然后准备下一步。

第三步：训练新的微调模型

我们直接用OpenAI提供的训练工具来训练：https://platform.openai.com/finetune

打开微调后点击创建。

最简单的方法，就两步，选择模型后上传训练数据。

这时我们选择的模型以及上传数据，其余地方保持默认即可。

然后点击最下方的Create开始。

显示如下则表面开始微调了。

可以看到这个loss下降得挺快的，在50轮的时候就到了0.1969了。

最后训练成功了，花了138轮，最后的loss是0.0703。

第四步：测试一下微调后的模型，我们要记住这个ID。

然后打开chat，选择我们刚刚训练好的模型。

我们来测试一下。

再测试几次，可以看到即使问的是数学题，它都用的是我们设定好的格式。

我们先不管回答的质量怎么样，但是很明显的，它按照了我们预想的方法进行了，这就说明我们的微调是成功了，只不过后续需要更多的数据以及更多次的微调，以达到理想的程度。

以下是遇到的几个问题：

①微调的花费：我这次一共花了0.09美元，算是非常便宜了。

定价可以在OpenAI官网上找到，这是一个具体案例。

②导致微调失败的常见原因：我失败了两次，原因都是数据集的格式有问题。

这个必须得严格按照标准来，建议用OpenAI提供的工具进行分析：

https://cookbook.openai.com/examples/chat_finetuning_data_prep

这个工具很简单，可以告诉你哪里出问题了。

http://mp.weixin.qq.com/s?__biz=MzAwNzMwOTcyNQ==&mid=2455657712&idx=1&sn=c7a1f5ca0433b4cbb8976b6e2f14e355

平凡的平凡

偶然所做。

最新文章

你的科研工具箱更新了哪些新工具？

为什么马斯克会觉得大部分学术论文是没用的？

为什么你编写不出优秀的ChatGPT提示词?

「防自学」教材的最大克星，AI工具可以挖出隐藏知识点

为什么有人说「获取学历的速度赶不上学历贬值的速度」？

目前大环境下，去读博是否是个比较好的选择呢？

AI时代还有必要学计算机编程吗？Python是否还是最优选

本科生科研能力的两种路子：有靠山，靠自己，还是做曹原那样的天才？

怎么看待大学里很水的老师？

博士学位，就是一种明码标价的商品，不必神话它

读博期间如何保持科研干劲避免burn out？

计算机是最难的工科吗？

如何理解“英语+一门技能=王炸”？

深度体验Cursor三周后，这3个tips一定要注意

除了ChatGPT，还有哪些好用的AI工具？

普通人如何抓住AI这个风口?

小红书的封闭内容都可以被搜索的到？AI搜索引擎太强悍了

学生该不该买ChatGPT?

暑假后高达一万的天价账单，刺痛了多少“寒门父母”?

LLM大模型的微调原理以及ChatGPT的API微调操作实践

AI 发展真的会让大部分人失业吗？普通人如何用 AI 提升工作效率？

GPT4o被证实有了中度自我意识，那离强人工智能还远吗？

目前AI领域的自媒体怎么赚钱呢？

学历贬值太快，这类学校的研究生就业可能不如本科

AI公司的“养鱼”战术：免费服务背后的长线布局

揭秘国内大厂高薪招聘：顶尖人才争夺战

AI搜索引擎的结果可信度并没有多高

AI写的内容，确实太容易分辨了

用AI写小说可能是下一次风口

为什么AI眼中9.11大于9.9呢？

老外这次是真的惊了，中国版Sora，可灵开放全球测试

别再被AI忽悠了！手把手教你写出杀手级Prompt

为什么全球只有中美能领先AI创新？

如何看待斯坦福大学报告称：中国人对AI态度最为积极

李彦宏：开源模型是智商税？

AI发展到现在，国内大模型行业还有哪些机会？

为什么这波 AI 浪潮没有带来大量的就业岗位

详细教程：自定义大模型之微调ChatGPT

AI搜索引擎，一个普通搜索引擎的二道贩子

AI 时代，高考选什么专业比较有前景？

聊聊姜萍那套题

卷起来，用AI写高考作文啦

AI时代，对于汉语编程来说是危机还是机遇?

如何让大语言模型输出JSON格式？

通义千问2.5发布：开源大模型中文智能程度直逼GPT4

分享10款能够自动生成视频的AI软件

十天能不能写完一篇毕业论文

震撼揭秘：仅需15秒，打造你的声音分身！

用AI视频将旅行世界具象化

FittenCode: 比Github Copilot性能更强，而且免费的AI代码辅助编写工具

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉