使用合成指令对 LLM 进行预训练

文摘 2024-08-05 10:43 新加坡

本文涉及到的详细测试代码和测试步骤放置于：

https://github.com/davidsajare/david-share.git

下的：DeepLearning/Pretrain-on-Synthetic-Instructions,本文中不再赘述代码实现。

欢迎给repo点亮Star，您的点赞是作者持续创作的动力。

一、指令预训练”（Instruction Pre-Training）

https://huggingface.co/instruction-pretrain/instruction-synthesizer

微软提出的一种新的预训练方法，称为“指令预训练”（Instruction Pre-Training），并详细解释了如何生成和使用合成的指令-响应对来预训练大型语言模型（LLMs）。以下是主要内容的总结：

指令预训练的概念：

传统的预训练方法是直接在原始语料上进行预训练，而指令预训练则是通过一个指令合成器生成指令-响应对来增强原始文本。
微软的评估显示，经过指令预训练的LLMs在各种任务上的表现显著优于仅经过标准预训练的LLMs。

指令合成器的工作原理：

给定原始文本，指令合成器生成成对的指令和响应，可以生成一对一或少量示例。
微软使用了多个数据集来微调指令合成器，这些数据集涵盖了非常多样的任务和领域。

生成指令的过程：

微软从RefinedWeb数据集中抽取了200M片段（200B tokens）的文本样本。
使用指令合成器生成指令-响应对，并将这些对作为原始文本再次输入指令合成器生成更多的示例。
最终生成了200M对指令-响应对，并将其与原始样本混合进行预训练。

实验结果：

微软在不同大小的LLMs上进行了预训练实验，结果显示，使用指令预训练的模型在公共基准测试中的表现优于仅使用原始文本预训练的模型。
他们还进行了继续预训练的实验，结果显示指令预训练的优势因任务而异。

使用指令合成器生成数据：

微软在Hugging Face Hub上发布了指令合成器，并提供了代码示例。
文章展示了如何使用该代码为金融领域的数据集生成指令-响应对，并将这些对用于训练或继续预训练模型。

结论：

微软提出的这种合成指令-响应对的方法目前是最好的，比之前的Ada-instruct方法效果更好。
未来可以通过微调更大的模型来进一步改进指令合成器。目前合成器的模型如下。这个模型的是基于 Mistral-7B 模型构建的。

二、指令预训练是否可以依据未打标签的数据生成打标签的数据

微软的指令预训练方法可以用于基于未打标签的数据生成打标签的数据。具体来说，指令合成器可以将原始的未打标签文本转换为成对的指令和响应，从而生成带标签的数据。这种方法可以用于各种任务和领域，包括但不限于问答、文本分类、命名实体识别等。

以下是一个简要的步骤说明，展示如何使用指令合成器生成打标签的数据：

准备原始数据：

收集未打标签的原始文本数据。例如，金融新闻、社交媒体帖子、技术文档等。

加载指令合成器模型：

使用微软发布的指令合成器模型，可以在Hugging Face Hub上找到并下载。
安装必要的依赖库，如vLLM。

生成指令-响应对：

使用指令合成器模型对原始文本进行处理，生成成对的指令和响应。这些指令和响应对可以视为打标签的数据。
例如，对于一个金融新闻片段，指令合成器可能生成一个问题（指令）和对应的答案（响应），从而为该片段打上标签。

保存生成的数据：

将生成的指令-响应对保存为一个新的数据集，可以用于后续的模型训练或评估。

三、指令预训练是不是可以完全替代人工打标签

虽然微软的指令预训练方法可以生成大量的问答对，从而减少了人工数据打标签的需求，但完全不需要人工数据打标签的情况还是不太现实的。以下是一些需要考虑的因素：

1.生成数据的质量和准确性

自动生成的数据可能不如人工标注的数据准确。生成的问答对可能包含错误或不准确的信息，特别是在处理复杂或模糊的文本时。因此，人工审核和校正生成的数据仍然是必要的。

2.领域特定知识

某些领域可能需要特定的专业知识，自动生成的问答对可能无法完全捕捉到这些细节。例如，医学、法律等领域的文本可能需要专业人员进行标注，以确保数据的准确性和可靠性。

3.模型的局限性

尽管指令合成器模型可以生成高质量的问答对，但它们仍然有局限性。例如，模型可能会生成重复的问答对，或者在处理长文本时表现不佳。人工干预可以帮助识别和纠正这些问题。

4.多样性和覆盖率

自动生成的问答对可能在多样性和覆盖率上有所欠缺。人工标注可以确保数据集涵盖更广泛的场景和问题类型，从而提高模型的泛化能力。

5.道德和法律问题

在某些情况下，自动生成的数据可能涉及道德和法律问题。例如，生成的问答对可能包含敏感信息或侵犯隐私。人工审核可以帮助识别和处理这些问题。

6.模型训练和评估

即使使用自动生成的数据进行初步训练，仍然需要人工标注的数据进行模型的评估和验证。这样可以确保模型在真实世界中的表现。

因此，最佳的做法是结合自动生成和人工标注的方法，以获得高质量的训练数据。这样可以既利用自动生成的效率，又确保数据的准确性和可靠性。

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561420&idx=1&sn=dcefca5203810f9d7cc0f737ca2843ba

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

LLM的视频、文本和图片过滤

PTQ量化哪家强？

如何为预训练创建高质量的数据集

一句话说清预训练和微调的本质区别

HuggingFace推出小模型SmolLM

Llama-3.1 70B在两卡A100上微调

使用合成指令对 LLM 进行预训练

困惑度的正确用法

多LoRA适配器的原理、方法、实现及优势

Llama3.1-8B微调

图生图-Stable Diffusion在H100上的测试

LLM中EOS的作用

H100学习笔记#July, 2024 github开源文章与代码

Phi-3微调与量化

拓展模型的Function call能力

LLama3.1之我见

Ph3 rag的实现

GPU怎么选？微调与推理

视觉模型小钢炮：Florence-2

重量选手：FlashAttention-3

推理圈的沙皇核弹？

graphrag来啦！

如何用NVIDIA GPU运行分布式训练

Florence-2的威力

解密推理训练中的内存消耗：本周github开源代码#Week1 July, 2024

很有意思的phi3量化后的四个尝试

本周github开源代码#Week4 June, 2024

端侧视觉模型推理的考量：Phi3-Vision

我在微软AI Day上做的分享

开源一个AI知识的repo: david-share

详解视觉Transformers

继续预训练(CPT)的本质与代码实现

LLM 进 KV 缓存的量化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉