实战 Transformers 模型微调之数据集处理库 Hugging Face Datasets

文摘 2024-08-21 07:00 湖南

在深度学习中，数据处理是模型训练的关键环节之一。Hugging Face Datasets 库提供了一套强大的工具来简化这一过程，使数据集的管理和预处理变得高效且直观。本文将详细介绍 Hugging Face Datasets 库的基本用法和数据预处理策略，并结合实际代码示例，帮助您掌握这一工具的使用方法。

一、Hugging Face Datasets 库简介

1. Hugging Face Datasets 库是什么？

Hugging Face Datasets 是一个开源 Python 库，旨在简化自然语言处理（NLP）、计算机视觉（CV）和音频任务的数据集处理。通过这个库，您可以轻松加载、处理和共享数据集，仅需一行代码即可完成大部分数据集的加载工作。它与 Hugging Face Hub 深度集成，使得数据集的管理和共享变得更加便捷。

2. 使用 Datasets 下载开源数据集

通过 datasets 库，您可以轻松下载和加载各种开源数据集。以下是一个示例，演示如何下载并加载 GLUE 数据集中的 MRPC 任务：

from datasets import load_dataset
# 下载并加载 GLUE 数据集的 MRPC 任务dataset = load_dataset('glue', 'mrpc')
# 打印数据集的基本信息print(dataset)

在上述代码中，我们使用 load_dataset 函数加载了 GLUE 数据集的 MRPC 任务。这个函数会自动从 Hugging Face Hub 下载数据集并进行基本的预处理。

3. Datasets.load_dataset 实现原理简介

datasets.load_dataset() 函数背后使用了 DatasetBuilder 类，该类负责数据集的下载和构建。该函数首先检查本地缓存是否存在数据集，如果缓存中没有，则从 Hugging Face Hub 下载数据。然后，DatasetBuilder 类将数据集加载到内存中，并进行初步的处理。

4. 构造 DatasetBuilder 类的主要配置 BuilderConfig

在构造自定义数据集时，DatasetBuilder 类使用 BuilderConfig 类来配置数据集的各种属性。例如，您可以指定数据集的类别标签或其他属性。以下是如何创建自定义配置的示例：

from datasets import DatasetBuilder, BuilderConfig
class CustomDatasetBuilder(DatasetBuilder):    BUILDER_CONFIGS = [        BuilderConfig(name="custom_config", description="A custom dataset configuration")    ]
    def _info(self):        return DatasetInfo(            description="Custom dataset",            features=Features({                "text": Value(dtype="string"),                "label": ClassLabel(names=["negative", "positive"])            })        )
    def _split_generators(self, dl_manager):        # 实现数据下载和划分的逻辑        pass
    def _generate_examples(self, filepath):        # 实现数据生成的逻辑        pass

在这个示例中，我们定义了一个名为 CustomDatasetBuilder 的数据集构建器，并指定了一个自定义的 BuilderConfig。_info 方法定义了数据集的基本信息，包括数据特征和标签。

5. 实际构造数据集的类 DatasetBuilder

DatasetBuilder 类是数据集构建的核心，通过继承和实现其中的方法，我们可以创建自定义的数据集。例如，您可以实现数据的下载、处理和生成逻辑：

from datasets import DatasetBuilder
class MyDatasetBuilder(DatasetBuilder):    def _split_generators(self, dl_manager):        # 下载数据集并返回数据划分        return [            SplitGenerator(name="train", gen_kwargs={"filepath": "path/to/train_data"}),            SplitGenerator(name="test", gen_kwargs={"filepath": "path/to/test_data"})        ]
    def _generate_examples(self, filepath):        # 从文件中读取数据并生成示例        with open(filepath, "r") as file:            for id_, line in enumerate(file):                yield id_, {"text": line.strip(), "label": 1}  # 示例标签

6. Datasets 帮助构建不同用途的数据集

使用 Hugging Face Datasets 库，您可以轻松创建训练集、验证集和测试集。只需在数据集构建器中定义不同的数据划分，即可实现这一目标：

dataset = load_dataset('glue', 'mrpc', split='train')  # 加载训练集

二、数据预处理策略：填充与截断

在处理数据时，填充（Padding）和截断（Truncation）是两种常见的预处理策略。这些策略确保模型输入的数据符合要求，并提高训练效率。

1. 数据预处理策略：填充（Padding）

填充是将序列扩展到固定长度，以便于批处理。以下是使用 Hugging Face Datasets 库进行填充的示例：

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
def preprocess_function(examples):    return tokenizer(examples['text'], padding='max_length', truncation=True, max_length=128)
dataset = load_dataset('glue', 'mrpc')dataset = dataset.map(preprocess_function, batched=True)

在这个示例中，我们使用 AutoTokenizer 对数据进行填充，将所有输入序列扩展到最大长度 128。

2. 数据预处理策略：截断（Truncation）

截断是将超出最大长度的数据裁剪掉，以避免模型处理过长的输入数据：

def preprocess_function(examples):    return tokenizer(examples['text'], padding='max_length', truncation=True, max_length=128)
dataset = load_dataset('glue', 'mrpc')dataset = dataset.map(preprocess_function, batched=True)

在上述代码中，truncation=True 参数确保了输入序列被截断到最大长度 128。

三、使用 Datasets.map 方法处理数据集

datasets.map 方法允许我们对数据集进行批量处理。通过将自定义的预处理函数应用于数据集，可以实现高效的数据处理和转换：

def preprocess_function(examples):    return tokenizer(examples['text'], padding='max_length', truncation=True, max_length=128)
# 使用 map 方法应用预处理函数processed_dataset = dataset.map(preprocess_function, batched=True)
# 打印处理后的数据集样本print(processed_dataset)

在这个示例中，datasets.map 方法将 preprocess_function 应用到整个数据集，从而实现批量的填充和截断。

四、总结

Hugging Face Datasets 库提供了强大的数据集管理和处理功能，使得数据的准备和处理变得更加高效。通过掌握库的基本用法和数据预处理策略，您可以更好地为 Transformers 模型的微调做好数据准备。希望本文能帮助您更好地理解和使用 Hugging Face Datasets 库，提高模型训练的效果。

http://mp.weixin.qq.com/s?__biz=Mzg5Mjc3NTg1Mw==&mid=2247485121&idx=1&sn=43e9feba45ceb6528543ff26f62e3c14

智能体AI

1、大模型只有结合业务才有意义，做出有价值的应用才是王道。2、基于大模型的开发要和传统程序结合。3、程序员的价值暴跌。4、产品经理的价值暴增。你需要及时更新自己的认知，帮大模型产品找到合理的价值主张。提供项目管理和AI应用的咨询服务。

最新文章

探索智能客服背后的黑科技：从语义分析到精准匹配

金融科技突破口：深度解析金融AI原生平台四层架构详解

大模型研发全揭秘（八）：模型训练全流程详解（从参数设置到优化调整-附代码）

大模型研发全揭秘（七）：如何通过正确初始化提升训练效果？

大模型研发全揭秘（六）：AI模型设计的五大关键步骤

大模型研发全揭秘（五）：如何通过数据集的合理划分提升大模型的表现？

大模型研发全揭秘（四）：客服工单数据标注的完整攻略

构建高效AI中台：解析人工智能中台架构的五大核心层

如何成为优秀的产品经理：技术与观念的完美融合

大模型研发全揭秘（三）：如何提升AI系统数据质量？数据清洗与预处理的关键步骤与案例解析！

大模型研发全揭秘（二）：数据决定模型成败！如何确保数据采集不踩坑？

大模型研发全揭秘（一）：掌握AI项目成功的10个关键步骤

运维智能体详解：如何通过智能化提升企业运维效率

人工智能新篇章：大语言模型如何赋能千行百业

AI赋能电商：AI大模型如何引领电商行业变革？

AI产品经理必备技能：如何从需求挖掘到智能化产品落地

人工智能赋能医疗：深度探索AI医疗产品的创新架构

从AI助手到自主Agent场景分析：项目经理如何选择最适合的LLM策略？

如何为你的大模型应用选择最佳架构？六大模式全面解读

AI四层架构解析：医疗AI如何深度融合各大应用场景

AI赋能教育：智慧教育技术架构的解析

AI产品经理知识体系：驾驭未来的核心技能

AI如何让销售更智能更精确？AI赋能销售的全流程深度解析

深度解析智能问答系统：如何打造精准、高效的AI对话架构？

AI人工智能整体架构：企业智能化转型的核心引擎

实战 Transformers 模型微调之数据集处理库 Hugging Face Datasets

从文本到音频和计算机视觉：解锁 Hugging Face Pipelines 的无限可能

高效AI故障诊断实践：提升企业运维能力

从异常感知到故障处理：多Agent（智能体）在故障处理中的应用

探索智能问答场景中的Agent角色

大模型解决运维之痛：从日志识别到自动化执行的全链路优化

大模型微调实战演练：使用代码剖析 Transformers Pipelines工作原理

从零开始：如何使用 Hugging Face Transformers 进行大模型开发

从LoRA到QLoRA：量化技术如何改变预训练模型的微调方式

LoRA 的进化之路：AdaLoRA 的技术突破

AI赋能运维：AI Agent在运维场景中的应用

探索AI技术的全景视图：从基础设施到应用层

一文看懂LoRA：如何在保持高效的同时提升微调效果

如何构建高效的智能应用：大模型五层技术架构详解

AI赋能客户服务：智能知识问答系统的架构解析

从PEFT到未来：大模型微调的高效新方法全面揭秘！

AI Agent 如何颠覆传统运维模式？

如何构建高效的智能应用：大模型五层技术架构详解

探索人工智能技术的四个阶段：从提示工程到预训练技术

LoRA、QLoRA与AdaLoRA的低秩适配：如何让AI语言模型瘦身不减智？

如何高效微调大模型？五大前沿 PEFT 技术为你揭晓

自主智能体的未来：LangChain Agents如何实现复杂任务自动化

一文读懂预训练语言模型的三大架构

全量微调vs高效微调：哪种方法更适合你的AI项目？

国产AI的崛起与全球科技版图的重塑

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉