敢不敢跟我一起，15分钟预训练数据到模型训练全流程跑通！概念看了万万千，一到动手就蒙圈！看完这个流程绝对懂了！学AI怎么能错过？

文摘 2024-08-20 22:55 浙江

点击箭头处“蓝色字”，关注更多及时AI资讯！！

小纸条之前给大家分享过结合RAG构建企业知识数据库的流程，对于数据集的构建的几种方式之前也有展开探讨，那今天就从实打实的代码的角度，来看下不论是对模型训练还是微调都至关重要的一环-文本预处理，以及接着处理好的数据，如何建立和训练一个自己的模型的最小MVP流程示范!

不会写代码的同学也不用担心!我们只要跟着代码过一下这个数据处理的流程，就能加深不少理解!我也不是非常熟悉python，但是跟着看下来，也的的确确对于之前提到的一些概念和参数用在哪里有了更好的认识!

然后看下来之后可以再去colab的官网上跟着做一遍，体感会更强哦，传送门：

https://www.tensorflow.org/tutorials/keras/text_classification?hl=zh-cn#%E8%AE%AD%E7%BB%83%E6%A8%A1%E5%9E%8B

接下来的内容会结合对 BERT 进行微调的完整代码，主要是对 IMDB 电影评论纯文本数据集进行情感分析。主要环节为：

加载 IMDB 数据集
从 TensorFlow Hub 加载 BERT 模型将 BERT 与分类器相结合
建立咱自己的模型
训练咱自己的模型，将 BERT 作为其中的一部分进行微调
保存咱的模型，并用它对句子进行分类

IMDB数据集构建

我们将训练一个二元分类器对 IMDB 数据集执行情感分析。主要方式就是利用收集到的评论文本将电影评论分类为正面或负面评价。这是一个典型的二元(或二类)分类示例，也是一个重要且应用广泛的机器学习问题。

我们使用 Large Movie Review Dataset

(https://ai.stanford.edu/%7Eamaas/data/sentiment/)，其中包含 Internet Movie Database (https://www.imdb.com/)中的 50,000 条电影评论文本。我们将这些评论分为两组，其中 25,000 条用于训练，另外 25,000 条用于测试。训练集和测试集是均衡的，也就是说其中包含相等数量的正面评价和负面评价。

(下面我们专注流程的梳理，一些中间的输出用截图表示，代码在流程讲解完的下面)

基本的环境准备

下载并IMDB 数据集

我们下载并提取数据集，然后浏览一下目录结构

url：指定了数据集的链接

tf.keras.utils.get_file(...)：这是 TensorFlow 中的一个工具函数，用于下载文件。它的参数包括:

aclImdb_v1: 下载后的文件名
url: 从中下载的文件的链接
untar=True: 指定下载的文件是否需要解压。这里设置为 `True`，意味着下载的文件是一个 tar.gz 格式的压缩文件，会在下载完成后被自动解压
cache_dir='.': 下载的文件将会保存在当前工作目录（`.`）下
cache_subdir='': 指定在缓存目录中的子文件夹为空，这样文件将直接下载到 `cache_dir` 目录。

os.path.dirname(dataset)`来获取下载文件的目录并连接上 'aclImdb' 子目录。`dataset` 是下载后解压的目录

列出了解压后的数据集目录中包含的文件和文件夹

第一行代码构建了训练数据的路径，连接上 'train' 子目录，指向训练集的文件夹。

第二行代码列出训练数据目录中的文件和文件夹，通常包括样本的情感分类(积极/消极的文本文件)。

这其中的pos 和 neg 目录包含许多文本文件，每个文件都是一条电影评论。我们来看看其中的一条评论。

加载数据集

接下来，我们来将从磁盘加载数据并将其准备为适合训练的格式。为此，我们需要使用

text_dataset_from_directory 实用工具，它期望的目录结构如下所示

要准备用于二元分类的数据集，磁盘上需要有两个文件夹，分别对应于 class_a 和 class_b。这些将是正面和负面的电影评论，可以在上面我们加载到的aclImdb/train/pos 和 aclImdb/train/neg 中找到。因为IMDB 数据集包含其他文件夹，所以我们要在使用此实用工具之前将其移除。

remove_dir = os.path.join(train_dir, 'unsup')

shutil.rmtree(remove_dir)

接下来，我们来使用 text_dataset_from_directory 实用工具创建带标签的 tf.data.Dataset。tf.data 是一组强大的数据处理工具。

运行机器学习实验时，最佳做法是将数据集拆成三份：训练、验证和测试。

IMDB 数据集已经分成训练集和测试集，但缺少验证集。我们来通过下面的 validation_split= 0.2来设置80:20的比例来拆分训练数据，创建验证集。

如上所示，训练文件夹中有 25,000 个样本，我们将使用其中的 80%(或 20,000 个)进行训练。我们可以遍历数据集并打印出一些样本

label表示标签为 0 或 1，下面的Label 0/1 corresponds to表示内容与正面和负面电影评论的对应关系，来自于数据集上的哪个class_names 属性

接下来我们来创建验证数据集和测试数据集。我们来使用训练集中剩余的 5,000 条评论进行验证。

注：使用 validation_split 和 subset 参数时，确保要么指定随机种子，要么传递 shuffle=False，这样验证拆分和训练拆分就不会重叠

准备用于训练的数据集

接下来，我们来使用

tf.keras.layers.TextVectorization 层对数据进行标准化、词例化和向量化。

标准化是指对文本进行预处理，通常是移除标点符号或 HTML 元素以简化数据集。词例化是指将字符串分割成词例(例如，通过空格将句子分割成单个单词)。向量化是指将词例转换为数字，以便将它们输入神经网络。所有这些任务都可以通过这个层完成。

我们上面也看到了，评论包含各种 HTML代码，例如
。TextVectorization 层(默认情况下会将文本转换为小写并去除标点符号，但不会去除 HTML)中的默认标准化程序不会移除这些代码。我们编写一个自定义标准化函数来移除 HTML。

注：为了防止训练-测试偏差(也称为训练-应用偏差)，在训练和测试时间对数据进行相同的预处理非常重要。为此，可以将 TextVectorization 层直接包含在模型中。

接下来，我们创建一个 TextVectorization 层，使用该层对我们的数据进行标准化、词例化和向量化。我们要将 output_mode 设置为 int 以便为每个词例创建唯一的整数索引。

我们使用的是默认拆分函数，以及我们在上面定义的自定义标准化函数。我们还可以为模型定义一些常量，例如显式的最大 sequence_length，来将序列填充或截断为精确的 sequence_length 值。

接下来，我们调用 adapt 以使预处理层的状态适合数据集，让过模型构建字符串到整数的索引。

注：在调用时请务必仅使用我们自己的训练数据(使用测试集会泄漏信息)

我们来创建一个函数来查看使用该层预处理一些数据的结果(精彩!)

正如我们在上面看到的，每个词例都被一个整数替换了。我们可以通过在该层上调用 .get_vocabulary() 来查找每个整数对应的词例(字符串)，如下图

最后的预处理步骤，将我们之前创建的 TextVectorization 层分别应用于训练数据集、验证数据集和测试数据集。

到此，我们就可以开始训练我们的模型了!

配置数据集到内存

以下是加载数据时应该使用的两种重要方法，以确保 I/O 不会阻塞。

从磁盘加载后，.cache() 会将数据保存在内存中。这将确保数据集在训练模型时不会成为瓶颈。如果您的数据集太大而无法放入内存，也可以使用此方法创建高性能的磁盘缓存，这比许多小文件的读取效率更高。

prefetch() 会在训练时将数据预处理和模型执行重叠。

创建模型

我们开始创建我们的神经网络

tf.keras.Sequential定义了一个顺序模型(Sequential Model)，它是 Keras 中的一种模型类型，适合于层按顺序堆叠的情况layers层按需要顺序堆叠，以构建分类器：

嵌入层 (Embedding Layer) ：

layers.Embedding(max_features+1,embedding_dim)

max_features + 1：表示词汇表的大小，加一是因为通常需要包含一个用于填充的索引(padding index)。

embedding_dim：表示嵌入向量的维度(每个词或词索引的表示维度)。嵌入层将词索引映射到其相应的嵌入向量。

丢弃层 (Dropout Layer) ：layers.Dropout(0.2)

是一个丢弃层，执行随机丢弃输入的一部分。这里 0.2 表示有 20% 的概率将输入的一部分置为零，旨在防止过拟合。

全局平均池化层 (GlobalAveragePooling1D Layer)：layers.GlobalAveragePooling1D()

这个层对输入的每个特征的平均值进行池化操作，减少数据的维度，使得后面的全连接层将处理更小的输入。

全连接层 (Dense Layer)：layers.Dense(1)

最后一层是一个全连接层，输出一个单一的值。常用于二分类任务，代表模型用于预测某种标签的概率或评分。

损失函数与优化器

一个模型需要损失函数和优化器来进行训练。由于这是一个二分类问题且模型输出概率值(一个使用 sigmoid 激活函数的单一单元层)，我们将使用 binary_crossentropy 损失函数。

这不是损失函数的唯一选择，例如，我们也可以选择 mean_squared_error 。但是，一般来说 binary_crossentropy 更适合处理概率——它能够度量概率分布之间的“距离”，或者在我们的示例中，指的是度量 ground-truth 分布与预测值之间的“距离”。

训练模型

以 512 个样本的 mini-batch 大小迭代 40 个 epoch 来训练模型。这是指对 x_train 和 y_train 张量中所有样本的的 40 次迭代。在训练过程中，监测来自验证集的 10,000 个样本上的损失值(loss)和准确率(accuracy)

评估模型

我们来看一下模型的性能如何。将返回两个值。损失值(loss)(一个表示误差的数字，值越低越好)与准确率(accuracy)。

这种十分朴素的方法得到了约 87% 的准确率(accuracy)。若采用更好的方法，模型的准确率应当接近 95%。

导出模型

在上面的代码中，我们在向模型馈送文本之前对数据集应用了 TextVectorization。如果我们想让模型能够处理原始字符串(例如，为了简化部署)，可以在模型中包含 TextVectorization 层。为此，我们可以使用刚刚训练的权重创建一个新模型。

使用新数据进行推断

要获得对新样本的预测，只需调用 model.predict() 即可。

将文本预处理逻辑包含在模型中后，我们就可以导出用于生产的模型，从而简化部署并降低训练/测试偏差的可能性。

在选择应用 TextVectorization 层的位置时，需要注意性能差异。在模型之外使用它可以让我们在 GPU 上训练时进行异步 CPU 处理和数据缓冲。所以如果要在 GPU 上训练模型，我们应该在开发模型时使用此选项来提高性能，然后在准备好部署时进行切换，在模型中包含 TextVectorization 层。

参考：

https://www.tensorflow.org/tutorials/keras/text_classification?hl=zh-cn#%E8%AE%AD%E7%BB%83%E6%A8%A1%E5%9E%8B

扫码关注更多AI资讯

我们一起学AI！

同桌的AI小纸条

一个专注于将先进的AI人工智能技术融入日常生活的频道。关注让AI为我们所用，探索人工智能领域的无限可能，并征服他们，让AI赋能生活快乐每一天！

揭秘AI时代的'黄金矿场',挖掘灵感和需求的'秘密武器'——Reddit如何成为AI时代的"潘多拉魔盒"！这矿我们又该怎么挖？

全网最全海内外AI图像生成大模型一览！生成速度、风格支持、角色控制、成本、使用方式等全方位对比!分分钟get属于你的图片大模型！

2025年AI大模型白话科普文第一弹，必然是国产开源之光DeepSeek-V3！多个基准测试中比肩世界顶尖闭源模型！

Anthropic、LangChain发来年终汇报！2024人工智能应用全景报告！如何构建有效的Agent和Workflow

圣诞特辑！OpenAI近期动作大盘点！一文get领头军OpenAI全套战略布局！多模态、端侧布局、用户体验、开发者生态..AGI

Google推出Gemini 2.0：迈向多模态与代理体验新篇章！探索人机协作新方式，赋能开发技术平权！AI Studio新体验

对抗AI奖励黑客，揭秘模型训练隐秘角落！离开OpenAI后Lilian Weng重磅回归技术分享！大白话解读，看模型如何“谄媚”

近期AI研究精华：战略性链式思维链提升LLM性能；噪声对LLM竟有正向作用？COF助力构建高质量长文本问答，长上下文强过RAG？

Anthropic定义MCP规范，整治LLM数据源接入混乱现状，打通Agent构建最后一公里！“信息孤岛”终打破，定制化接入翻篇

AI Agent代理技术栈的创新实践-2024最新洞察！从0到1构建自己的AI Agent智能代理，最强选型，看这一篇就够了！

OpenAI O1背后的COT意味着什么？模型的发展是否迎来了新的范式？AGI会加速到来么？思维链又带来了哪些新的机遇与挑战？

Scaling Laws推翻？低精度训练才是最优解？堆数据训练竟让模型变差？数据噪声大反而让模型鲁棒性变强.全是新知识点快收藏！

如何制作高质量的AI Agent？读了20+篇文章，提炼出prompt高级技巧大全，预置模板直接拿来用！唤醒大模型深度能力还省钱

本地部署大模型被环境搞疯？免费云服务器一键部署Dify构建Agent！OpenAI、千问..各家模型随便接！谁还在氪金玩大模型？

不用买卡！本地电脑CPU也能运行大模型！笔记本也能分分钟本地玩转LLM文生图！大模型入门本地环境打通（踩坑）指南，看着一篇就够了

10分钟完成文字转播客音频Agent！解析Google爆火Notebooklm背后的技术与逻辑！个人版播客生成智能体，你值得拥有

Google的NotebookLM爆火，一键生成超逼真双人对话播客！AI改革的春风终于席卷了播客！功能实测+开源版本部署看这篇！

终于可以在本地玩大模型了！Docker+Ollama+Dify，分分钟带你构建Llama模型本地服务，CPU也能玩的大模型教程！

字节跳动大消息！一口气两款视频模型，迎战Sora！豆包通用大模型pro全面升级！音乐生成模型、同声传译模型终于来了！

AI视频生成模型及工具最全收录！开源工具箱和基础模型、视频生成、可控视频生成、动作定制、长视频生成、图像泄漏优化模型..速查指南

不用前端知识，也能快速创建交互友好的机器学习模型Web界面！Gradio快速入门—LLM应用开发与落地，前端与大模型的齐头并进

OpenAI发布史上最强模型o1！认知大幅升级，学会人类“深思熟虑”！传说中的“草莓”大揭秘，拥有思维链的推理领域神级模型！

AI Agent、低代码、模块化AI开发工具Top级选手深度对比，Dify vs LangChain！一文搞清二者差异与如何选择

8岁女孩也能码出聊天机器人？Midjourney、Perplexity、OpenAI...都在用的AI编程神器-Cursor！

N号房2.0事件再现，全球女性恐慌！她决定开源AI模型对抗Deepfake，正面宣战性犯罪黑势力，守护技术正义，用AI打败AI！

当一站式Agent平台配置已经无法满足我...Dify小白入门攻略！在线/本地部署+应用发布，一条龙弄清楚！知识库这回给你说明白

0基础能写代码，程序员从此1打10！全网最全AI编程工具盘点！免费+中文友好，终于科技平权！人手一份的AI时代编程法宝你不能错过

AI Agent真实发展现状总结！智能体真的是未来？各家公司如何落地？OpenAI、英伟达、谷歌如何布局？智能体设备即将走入生活

LLM+Transformer可视化Top工具组合图解！深入剖析大模型流程细节，分分钟把LLM这“黑盒子”背后智能的奥秘拿捏！

敢不敢跟我一起，15分钟预训练数据到模型训练全流程跑通！概念看了万万千，一到动手就蒙圈！看完这个流程绝对懂了！学AI怎么能错过？

AI领域掌管专业术语到白话解释的神级百科全书！全网最全&最好懂的人工智能术语大全！500+高频术语收录、宝藏速查字典！错过就亏了

模型微调过程中微调数据、偏好数据、预训练数据、测评数据...都是什么意思？有什么差别？数据集里找？如何构造？写完这一篇我真的悟了

自立门户！StableDiffusion原班人马携黑森林实验室强势来袭！最强文生图模型FLUX.1硬核空降开源社区，MJ压力山大

LangChain全新Agent可视化工作流！你不能错过的LangChain科普！与LlamaIndex差别在哪儿？咱都要学吗？

看了那么久RAG还是调不明白？万字长文给你讲透RAG问题与优化策略！掌握Agent必备技能！AI学习你不能错过的RAG最全科普！

OpenAI上新招！规则奖励 (RBR) 方法驱动大模型，再也不怕政策变化？模型训练终于摆脱人工大量数据收集？人工与智能的联手！

RAG vs Fine-tuning模型微调，你真的懂了么？哪个是LLM优化最优解？有什么快速判断方式？新手进村到底该先学哪个？

Meta再出大招，Llama 3.1 官方正式发布！与当下最强的 GPT-4 、Claude 3.5 旗鼓相当，还是开源可商用！

敢不敢跟我一起搭建一个Agent！不写一行代码，10分钟搞出你的智能体！纯配置也能真正掌握AI最有潜力的技术？AI圈内人必备技能

Agent终于能主动进化？揭秘首个让AI自我进化的训练框架！突破人类专家局限，告别手动调优！端到端符号化框架如何引领AI自我革命

一文看OpenAI近期大事：发布证明验证者游戏提高模型准确性、发布对话偏好优于4o的GPT-4o mini、合作新型 AI 芯片

打破Prompt提示词的“玄学”，从此大模型回答不再抽盲盒！解放提示词工程师不是梦！北大百川联推-PAS系统！LLM的王炸助手

0编码也能搞AI大模型！Agent算外力，模型真内功！领域AI服务与模型开发平台差别？绝对不能错过的热门模型服务与训练平台盘点！

最全盘点！国内外最高人气AI视频制作神器-文生视频、图变动画。数字叙事AI新时代！作为AI人士不能不掌握的视频创作最新工具发展！

大模型通向AGI最大的风险是数据？2026年真的会数据枯竭么？中美开源数据现状差异？一图看懂AI时代数据饥荒的应对策略与核心技术

AI领域这些混淆概念，你也懵了么？机器学习vs深度学习、有监督vs无监督、预训练vs微调、算法vs模型...一文说清，从此明朗！

OpenAI都做不下去的GPTs，为何国内如此火热？盘点国内一站式Agent搭建平台，一文说清差别！大家都在用Agent做什么？

WAIC 2024 世界人工智能大会，各家AI巨头公司的老板们怎么说？跟着AI领头大咖视角，一起看人工智能的未来！

科班出品的智能体Agents，都是怎么玩的？AI热门场景全覆盖！创作、PPT、搜索、翻译、绘画视频数字人...总有一款您用得到！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉