Transformer，一个神奇的算法模型！！

文摘 2024-10-27 15:36 北京

哈喽，我是cos大壮~

最近很多初学者在聊天当中，提到了Transformer模型。在前几天的发文中也说了几次。

今天还是想以非常直观、简单的语言，让大家有一个大的轮廓，从而更清晰的、更好的学习后面的理论部分。

最初听过一个很简单的例子：想象你在读一篇文章，如果你只能逐字阅读，你会花很长时间才能理解每个句子。但如果你能一次看到整篇文章，你会更快抓住文章的意思。Transformer 的能力就像这样，能一次性处理整个输入，从而更快、更准确地理解数据。

老规矩：如果大家伙觉得近期文章还不错！欢迎大家点个赞、转个发，文末赠送《机器学习学习小册》。

文末可取本文PDF版本~

这里，我们再用一个非常直观地例子给大家~

假设你加入了一个多语言的在线聊天室，有些人用中文发送消息，有些人用英文。作为一个只懂英语的 Transformer 模型，让我们分步骤来看它如何处理消息：

1. 接收消息和理解（编码器）

每当有人发送一条消息，比如：

中文："你好，最近怎么样？"
英文："Hello, how have you been lately?"

作为一个 Transformer 模型：

编码器：首先，它会将每个词语转换成向量（数字表示），比如 "你好" 可能被转换成一个向量 [0.1, -0.3, 0.5]，而 "Hello" 可能被转换成 [0.2, 0.4, -0.1]。这些向量捕捉了每个词的语义信息。
注意力机制：Transformer 通过注意力机制来决定每个词在当前上下文中的重要性。比如，在理解 "你好，最近怎么样？" 这句话时，注意力机制可能会更关注 "最近" 和 "怎么样" 这些词，因为它们提供了关于时间和状态的信息。

2. 理解和生成（解码器）

当编码器把消息转换成内部表示后，解码器负责生成回复：

解码器：它根据之前编码器处理的信息和自身的知识，生成适当的回复。比如，在回复 "你好，最近怎么样？" 时，解码器可能生成 "Hello, I've been good, thanks!" 这样的英文回复。

3. 处理多语言

现在假设聊天室中有：

一个说中文的朋友，发送了 "你好，最近怎么样？"
一个说英文的朋友，发送了 "Hello, how have you been lately?"

作为 Transformer 模型：

多头注意力机制：它能够并行处理这两种语言的消息。对于 "你好，最近怎么样？" 和 "Hello, how have you been lately?" 这两条消息，Transformer 可以同时分析它们的语义和重要信息，找出它们之间的对应关系，从而理解并生成合适的回复。

通过编码器和解码器的组合，利用注意力机制和多头注意力机制来有效地理解和生成文本数据，无论消息是中文还是英文，都能够得到适当的处理和回复。

Transformer 特别擅长处理序列数据，如自然语言文本。最初由 Google 提出的 Transformer 被用来处理文本翻译任务，现在它在多种任务中表现优异，包括文本生成、分类和信息提取等。和传统的序列模型（如 RNN）不同，Transformer 通过并行处理整个输入序列，大大提高了处理速度和效率。

基本原理

Transformer 的核心组件是 注意力机制 (Attention Mechanism)，它允许模型在处理每个元素时，同时参考输入序列中的所有其他元素。

Transformer 主要由两个部分组成：编码器（Encoder）和 解码器（Decoder）。

编码器：

输入数据经过编码器层，转换为一系列向量表示。
每个编码器层由 多头注意力机制 (Multi-Head Attention) 和 前馈神经网络 (Feed-Forward Neural Network) 组成。

解码器：

解码器也有多层，每层同样由多头注意力机制和前馈神经网络组成。
解码器会利用编码器的输出和已生成的序列来生成新输出。

注意力机制

注意力机制的目标是根据输入的每个单词生成一个权重，表示该单词对当前任务的重要性。计算这些权重的过程称为点积注意力 (Scaled Dot-Product Attention)，其公式如下：

其中：

是查询矩阵 (Query)。
是键矩阵 (Key)。
是值矩阵 (Value)。
是键的维度（用于缩放）。

多头注意力机制

为了捕捉不同位置之间的关系，Transformer 使用 多头注意力机制 (Multi-Head Attention)，它将查询、键、值矩阵拆分为多组，然后独立地应用注意力机制，最后将这些结果合并。

其中：

是线性变换矩阵。
是输出变换矩阵。

完整案例

下面我们通过一个简单的 Python 代码示例，演示如何使用 Transformer 进行文本分类。

代码中，使用 PyTorch 和其 Transformer 模块。

准备数据

我们使用一个示例数据集，其中每个句子被标注为正面或负面。

import torch
from torch.utils.data import Dataset, DataLoader
from transformers import BertTokenizer

# 示例数据集
class SimpleDataset(Dataset):
    def __init__(self, texts, labels):
        self.texts = texts
        self.labels = labels
        self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
        self.max_len = 128

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = self.texts[idx]
        label = self.labels[idx]
        encoding = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,
            max_length=self.max_len,
            return_token_type_ids=False,
            padding='max_length',
            truncation=True,
            return_attention_mask=True,
            return_tensors='pt',
        )
        return {
            'text': text,
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.long)
        }

# 创建数据集
texts = ["I love this movie!", "This was a terrible film."]
labels = [1, 0]
dataset = SimpleDataset(texts, labels)
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

定义模型

我们使用预训练的 BERT 模型进行分类任务。

from transformers import BertModel, BertConfig
import torch.nn as nn

class SimpleTransformerModel(nn.Module):
    def __init__(self, num_labels):
        super(SimpleTransformerModel, self).__init__()
        self.bert = BertModel.from_pretrained('bert-base-uncased')
        self.classifier = nn.Linear(self.bert.config.hidden_size, num_labels)
    
    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        pooled_output = outputs[1]  # 取池化后的输出
        logits = self.classifier(pooled_output)
        return logits

# 初始化模型
model = SimpleTransformerModel(num_labels=2)

训练模型

简单的训练过程如下：

import torch.optim as optim
from torch.nn import CrossEntropyLoss

# 损失函数和优化器
criterion = CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=2e-5)

# 训练循环
model.train()
for epoch in range(3):  # 训练 3 个 epoch
    for batch in dataloader:
        optimizer.zero_grad()
        input_ids = batch['input_ids']
        attention_mask = batch['attention_mask']
        labels = batch['labels']
        outputs = model(input_ids, attention_mask)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
    print(f'Epoch {epoch+1}, Loss: {loss.item()}')

最后

Transformer 目前来说是一种非常重要的架构。它通过注意力机制高效处理序列数据，克服了传统模型的许多限制。

喜欢本文的朋友可以收藏、点赞、转发起来！

需要本文PDF的同学，扫码备注「Transformer」即可~

关注本号，带来更多算法干货实例，提升工作学习效率！

最后，给大家准备了《机器学习学习小册》PDF版本，16大块的内容，124个问题总结！

推荐阅读

原创、超强、精华合集
100个超强机器学习算法模型汇总
机器学习全路线
机器学习各个算法的优缺点
7大方面，30个最强数据集
6大部分，20 个机器学习算法全面汇总
铁汁，都到这了，别忘记点赞呀~

http://mp.weixin.qq.com/s?__biz=Mzk0MjUxMzg3OQ==&mid=2247490791&idx=1&sn=fc083cfdb32259bc5c2d3781ec524c0e

深夜努力写Python

Python、机器学习算法

最新文章

突破LSTM！时间序列预测！！

最强总结！复盘kaggle时间序列竞赛！

涨点神器！100个即插即用缝合模块！！

突破最强时间序列模型，LightGBM！！

生成理解大一统：多模态大模型最新研究进展【附最新论文】

讲透一个强大算法模型，Transformer ！！

突破最强时间序列模型，自回归积分滑动平均！！

通透！十大时间序列技术！！

突破最强集成算法模型，Adaboost！！

完全突破GBDT！GBDT用户行为分析！！

突破100个强大算法模型！！

超全总结！245个目标检测项目合集！！

突破GBDT！GBDT在用户行为分析中的应用！！

突破最强时间序列模型，自回归滑动平均！！

最强比较！GBDT 与 LightGBM ！！

Transformer，一个神奇的算法模型！！

完全突破KNN，利用KNN进行分类！！

突破最强时间序列模型，移动平均！！

被导师放养，后果可能很严重。。。

突破XGBoost算法，利用XGBoost进行行为分析！！

发一篇顶会真不难！！

突破GBDT算法，使用GBDT进行预测！！

突破最强时间序列模型，自回归！！

机器学习各算法的优缺点！！

突破最强分类算法，高斯混合模型！！

突破LightGBM，LightGBM在广告点击率预测中的应用！！

快速学会Nature热门算法模型，LSTM！！

Kaggle拿牌技巧，从python到金牌！！

突破LSTM！利用LSTM进行时间序列预测！！

我发现了找顶会创新点的最强套路，真的不需要脑子。。

突破最强时间序列模型，LightGBM！！

通透！十大时间序列技术！！

大模型杀疯了，LLM-Multi Agent ！！

不要跟风申博，给真正想要25、26申博人的破局建议！！

突破最强回归算法模型，SVR ！！

面试大厂被怼：怎么连Attention都不会？

突破XGBoost，XGBoost在股票市场趋势预测中的应用！！

突破最强分类算法模型，SVM！！

突破最强时间序列模型，自回归！！

GBDT、XGBoost、LightGBM，树模型全面对比！！

kaggle，YYDS ！！

最强总结！11种注意力机制！！

讲透一个强大算法模型，决策树！！

通透！十大数据清洗方法！！

突破100个强大算法模型！！

再见了！Numpy ！！

再见！Pandas！！

突破最强算法模型，KAN ！！

RNN vs. Transformer，从循环到自注意力最强比较！！

王者归来！MedSAM-2 刷新图像分割 SOTA 榜！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

Transformer，一个神奇的算法模型 ！！

基本原理

注意力机制

多头注意力机制

完整案例

准备数据

定义模型

训练模型

推荐阅读

Transformer，一个神奇的算法模型！！