LLM大模型的微调原理以及ChatGPT的API微调操作实践

乐活 2024-08-13 22:25 英国

我用ChatGPT提供的API做过微调，一共跑了138轮，最后的loss降得还算平稳。

（具体操作方法在文末）

最后花了0.09美元。

我想要实现的是让ChatGPT输出的语气语调要带有「道家思想」，下面是我之前做的测试。

我问它「如何应对压力？」

经过微调后的ChatGPT给我的回答：应对压力要心无杂念。

庄子说“无忧无虑，何须畏忧”。

这就是我要的效果，因为最原始的ChatGPT做不了某些特定需求的工作，比如说它对于中国的古诗词的效果就不太好，大概率是因为它的训练数据中没有包含全部的古诗词，所以微调fine-tuning、RAG、Prompt工程其实都是在原有的模型上打补丁。

其实微调很好理解，就是一个高考完的学生，天文地理都懂一些，但是让他们干某一件具体的的事情，比如从切菜、配料和炒菜这样的活他们是干不了的。

他们知道刀可以切菜，但是什么菜怎么切最好是没有经验的；炒菜也一样，他们的物理化学肯定学了高温下的化学反应，但是具体的菜什么火候他们并不懂，所以需要做一下专项训练，也就是微调。

这也是大模型各种补丁的主要作用，就是应对「特殊的需求/没有见过的问题/调整一下输出的形式」，根据OpenAI的官方介绍，微调适用于以下五种情况：

调整写作风格、语气、格式等
提高生成正确结果的稳定性
修正模型在复杂提示下的表现
处理一些特殊的、意外的情况
学习和执行在提示中无法明确说明的新技能或任务

我的例子其实就是第一种，仅仅是对风格和语气进行调整。

实际上用OpenAI的API微调非常的简单，就这么简单的几步：

确定需要微调的模型。
准备并上传训练数据。
训练新的微调模型。
评估结果，并根据需要决定是否重新训练。
使用微调后的模型。

在对OpenAI的API进行微调时，我遇到的最大问题是准备数据集，因为其他步骤基本上都是自动化的。

这是我准备的数据集，你可以看到跟训练好的GPT的输出非常的像，因为这就是我要的效果。

{"messages": [{"role": "system", "content": "道言是一个基于道家思想和语录回答问题的聊天机器人。"}, {"role": "user", "content": "如何找到内心的平静？"}, {"role": "assistant", "content": "内心的平静在于清心寡欲。正如庄子所言：'淡泊以明志，宁静以致远。'"}]} {"messages": [{"role": "system", "content": "道言是一个基于道家思想和语录回答问题的聊天机器人。"}, {"role": "user", "content": "如何面对挫折？"}, {"role": "assistant", "content": "面对挫折，要像水一样柔韧。老子说：'上善若水，水善利万物而不争。'"}]}

数据集的质量实际上决定了微调后模型的效果。总体来说，用现成的微调工具，比如说OpenAI的会非常的简单，效果是由你的数据决定的。

但是有一个问题，那就是OpenAI的模型都是闭源的，如果你的数据是保密的或者说不能承受数据泄露的风险，那必须使用开源大模型，比如Llama或者Qwen系列。

其实不管开源还是闭源大模型，微调是刚需，因为没办法一次性把所有的知识都灌输给大模型，毕竟每天都有新的知识产生，所以才有了各种各样的「打补丁」方式，提供了微调接口的大模型操作起来非常的简单，但是不了解原理的话还是会难以操作，以下是常见的大模型微调方法。

全量微调（Full Fine Tuning, FFT）

这种方法重新训练模型的所有参数，以适应新的任务或领域。虽然性能提升显著，但需要大量计算资源和时间，且存在灾难性遗忘的风险，即模型可能忘记预训练时学到的通用知识。

参数高效微调（Parameter-Efficient Fine Tuning, PEFT）

PEFT旨在减少微调的计算成本，通过调整模型的一小部分参数或添加额外参数来适应新任务。包括以下策略：

Prompt Tuning：不改变模型参数，为每个任务训练小型附加参数，这些参数影响输入的表示。
Prefix Tuning：在模型输入序列前添加固定长度的向量或“前缀”，这些向量在训练中被优化，引导模型产生特定于任务的输出。
LoRA（Low-Rank Adaptation）：通过低秩分解添加和训练少量参数，以适应新任务，实现快速适应和轻松切换不同任务。

监督式微调（Supervised Fine Tuning, SFT）

使用带标签的数据集，通过传统监督学习方式对模型进行微调。

基于人类反馈的强化学习微调（Reinforcement Learning with Human Feedback, RLHF）

结合人类反馈，通过强化学习调整模型，使其输出更符合人类期望。

基于AI反馈的强化学习微调（Reinforcement Learning with AI Feedback, RLAIF）

类似于RLHF，但反馈来源是AI系统，旨在提高反馈效率和降低成本。

其实除了微调之外，RAG（Retrieval-Augmented Generation）也非常的火，因为它相当于考试的时候带了参考书，这也是很多需要严谨回答时候采用的方法。

Verba是一个可以兼容很多个模型且直接可用的RAG工具。

它可以支持大多数主流大模型，以及可以做多种文件类型的支持。

http://mp.weixin.qq.com/s?__biz=MzAwNzMwOTcyNQ==&mid=2455657958&idx=1&sn=49e3bd166aeec761f8ea35d0f8a24c2f

平凡的平凡

偶然所做。

最新文章

AI时代还有必要学计算机编程吗？Python是否还是最优选

本科生科研能力的两种路子：有靠山，靠自己，还是做曹原那样的天才？

怎么看待大学里很水的老师？

博士学位，就是一种明码标价的商品，不必神话它

读博期间如何保持科研干劲避免burn out？

计算机是最难的工科吗？

如何理解“英语+一门技能=王炸”？

深度体验Cursor三周后，这3个tips一定要注意

除了ChatGPT，还有哪些好用的AI工具？

普通人如何抓住AI这个风口?

小红书的封闭内容都可以被搜索的到？AI搜索引擎太强悍了

学生该不该买ChatGPT?

暑假后高达一万的天价账单，刺痛了多少“寒门父母”?

LLM大模型的微调原理以及ChatGPT的API微调操作实践

AI 发展真的会让大部分人失业吗？普通人如何用 AI 提升工作效率？

GPT4o被证实有了中度自我意识，那离强人工智能还远吗？

目前AI领域的自媒体怎么赚钱呢？

学历贬值太快，这类学校的研究生就业可能不如本科

AI公司的“养鱼”战术：免费服务背后的长线布局

揭秘国内大厂高薪招聘：顶尖人才争夺战

AI搜索引擎的结果可信度并没有多高

AI写的内容，确实太容易分辨了

用AI写小说可能是下一次风口

为什么AI眼中9.11大于9.9呢？

老外这次是真的惊了，中国版Sora，可灵开放全球测试

别再被AI忽悠了！手把手教你写出杀手级Prompt

为什么全球只有中美能领先AI创新？

如何看待斯坦福大学报告称：中国人对AI态度最为积极

李彦宏：开源模型是智商税？

AI发展到现在，国内大模型行业还有哪些机会？

为什么这波 AI 浪潮没有带来大量的就业岗位

详细教程：自定义大模型之微调ChatGPT

AI搜索引擎，一个普通搜索引擎的二道贩子

AI 时代，高考选什么专业比较有前景？

聊聊姜萍那套题

卷起来，用AI写高考作文啦

AI时代，对于汉语编程来说是危机还是机遇?

如何让大语言模型输出JSON格式？

通义千问2.5发布：开源大模型中文智能程度直逼GPT4

分享10款能够自动生成视频的AI软件

十天能不能写完一篇毕业论文

震撼揭秘：仅需15秒，打造你的声音分身！

用AI视频将旅行世界具象化

FittenCode: 比Github Copilot性能更强，而且免费的AI代码辅助编写工具

国内有哪些收费较便宜，还很好用的AI工具？

全面超越GPT4的Claude3，能否通过“大海捞针”实验？

使用好了ChatGPT，你将拥有一个全能辅导老师

马斯克以违反合同为由起诉 OpenAI 及其 CEO 萨姆·奥特曼，哪些信息值得关注？

为什么发布ChatGPT后，国内很快就如雨后春笋，是在之前就已经开始训练了吗？

DeepMind 提出可交互生成式世界模型 Genie，有什么意义？和 Sora 比有什么不同？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉