----求关注 求点赞 非常感谢!----
截止于到目前,这是世界上第一本把Transformer进行了全面、系统级解读的书籍,共包含了60多个transformer架构,你可以掌握每个架构的理论知识与实用技巧,以及如何在现实场景中去使用它。
不管是深度学习初学者还是具备一定基础的同学,我都强烈推荐大家去看一看!
作者通过七个大的章节彻彻底底的把Transformer架构进行了非常底朝天式的解读,如果你需要这本书的高清电子版本,可以直接长按屏幕扫码添加我的助手让她无偿及时发送给大家!
可以直接长按扫码添加
第一章从时间线、历史及其对学术界和工业界的影响向读者简单的介绍了Transformer架构。
第二章开始介绍序列到序列模型及其局限性,然后全面且详细介绍了Transformer的各种构造模块,像:注意力、多头注意力、位置编码、残差连接和编码器、解码器框架等等,且当中的每一个模块都是通过理论结合实践的角度进行详细的论述,非常非常容易理解。
第三章主要是详细介绍了bert架构的具体细节,以及如何对经典的nlp任务进行预训练和微调。
后面几个章节主要是详细介绍了各种基于Transformer架构的变体模型。
以及如何在语言、文本、时间序列与计算机视觉中应用transformer技术、还有Transformer可解释性技术的解读,当中的每一个进行理论和实际现实分析的实践案例研究和代码片段,都可以在谷歌Colab中运行。
具体目录内容(真的巨全巨详细!):
Deep Learning and Transformers: An Introduction :
简介 1.1 深度学习:历史视角 1.2 变换器及其分类 1.2.1 改进的变换器架构 1.2.1.1 变换器块的改变 1.2.1.2 变换器子层的变化 1.2.2 预训练方法及应用 1.3 资源 1.3.1 库和实现 1.3.2 书籍 1.3.3 课程、教程和讲座 1.3.4 案例研究和细节。
Transformers: Basics and Introduction :
基础和介绍 2.1 编码器-解码器架构 2.2 序列到序列 2.2.1 编码器 2.2.2 解码器 2.2.3 训练 2.2.4 基于RNN的编码器解码器问题 2.3 注意力机制 2.3.1 背景 2.3.2 基于评分的注意力类型 2.3.2.1 点积(乘法) 2.3.2.2 缩放点积或乘法 2.3.2.3 线性、MLP或加法 2.3.3 基于注意力的序列到序列 2.4 变换器 2.4.1 源和目标表示 2.4.1.1 词嵌入 2.4.1.2 位置编码 2.4.2 注意力层 2.4.2.1 自注意力 2.4.2.2 多头注意力 2.4.2.3 掩码多头注意力 2.4.2.4 编码器-解码器多头注意力 2.4.3 残差和层归一化 2.4.4 位置前馈网络 2.4.5 编码器 2.4.6 解码器 2.5 案例研究:机器翻译 2.5.1 目标 2.5.2 数据、工具和库 2.5.3 实验、结果和分析 2.5.3.1 探索性数据分析 2.5.3.2 注意力 2.5.3.3 变换器 2.5.3.4 结果和分析 2.5.3.5 可解释性。
Bidirectional Encoder Representations from Transformers (BERT) :
3.1 BERT 3.1.1 架构 3.1.2 预训练 3.1.3 微调 3.2 BERT 变体 3.2.1 RoBERTa 3.3 应用 3.3.1 TaBERT 3.3.2 BERTopic 3.4 BERT 洞察 3.4.1 BERT 句子表示 3.4.2 BERT学 3.5 案例研究:使用变换器的主题建模 3.5.1 目标 3.5.2 数据、工具和库 3.5.2.1 数据 3.5.2.2 计算嵌入 3.5.3 实验、结果和分析 3.5.3.1 构建主题 3.5.3.2 主题大小分布 3.5.3.3 主题可视化 3.5.3.4 主题内容 3.6 案例研究:微调BERT 3.6.1 目标 3.6.2 数据、工具和库 3.6.3 实验、结果和分析。
Multilingual Transformer Architectures :
4.1 多语言变换器架构 4.1.1 基本多语言变换器 4.1.2 单编码器多语言NLU 4.1.2.1 mBERT 4.1.2.2 XLM 4.1.2.3 XLM-RoBERTa 4.1.2.4 ALM 4.1.2.5 Unicoder 4.1.2.6 INFOXL 4.1.2.7 AMBER 4.1.2.8 ERNIE-M 4.1.2.9 HITCL 4.1.3 双编码器多语言NLU 4.1.3.1 LaBSE 4.1.3.2 mUSE 4.1.4 多语言NLG 4.2 多语言数据 4.2.1 预训练数据 4.2.2 多语言基准 4.2.2.1 分类 4.2多语言基准 4.2.2.2 结构预测 4.2.2.3 问题回答 4.2.2.4 语义检索 4.3 多语言迁移学习洞察 4.3.1 零样本跨语言学习 4.3.1.1 数据因素 4.3.1.2 模型架构因素 4.3.1.3 模型任务因素 4.3.2 语言无关的跨语言表示 4.4 案例研究 4.4.1 目标 4.4.2 数据、工具和库 4.4.3 实验、结果和分析 4.4.3.1 数据预处理 4.4.3.2 实验。
Transformer Modifications:
5.1 变换器块修改 5.1.1 轻量级变换器 5.1.1.1 Funnel-Transformer 5.1.1.2 DeLighT 5.1.2 变换器块之间的连接 5.1.2.1 RealFormer 5.1.3 自适应计算时间 5.1.3.1 Universal Transformers (UT) 5.1.4 变换器块之间的递归关系 5.1.4.1 Transformer-XL 5.1.5 分层变换器 5.2 带有修改的多头自注意力变换器 5.2.1 多头自注意力的结构 5.2.1.1 多头自注意力 5.2.1.2 空间和时间复杂度 5.2.2 降低自注意力的复杂度 5.2.2.1 Longformer 5.2.2.2 Reformer 5.2.2.3 Performer 5.2.2.4 Big Bird 5.2.3 改进多头注意力 5.2.3.1 Talking-Heads Attention 5.2.4 使用先验偏置注意力 5.2.5 原型查询 5.2.5.1 聚类注意力 5.2.6 压缩键-值记忆 5.2.6.1 Luna: 线性统一嵌套注意力 5.2.7 低秩近似 5.2.7.1 Linformer 5.3 训练任务效率的修改 5.3.1 ELECTRA 5.3.1.1 替换标记检测 5.3.2 T5 5.4 变换器子模块变化 5.4.1 Switch Transformer 5.5 案例研究:情感分析 5.5.1 目标 5.5.2 数据、工具和库 5.5.3 实验、结果和分析 5.5.3.1 可视化注意力头权重 5.5.3.2 分析。
Pretrained and Application-Specific Transformers :
6.1 文本处理 6.1.1 域特定变换器 6.1.1.1 BioBERT 6.1.1.2 SciBERT 6.1.1.3 FinBERT 6.1.2 文本到文本变换器 6.1.2.1 ByT5 6.1.3 文本生成 6.1.3.1 GPT:生成式预训练 6.1.3.2 GPT-2 6.1.3.3 GPT-3 6.2 计算机视觉 6.2.1 视觉变换器 6.3 自动语音识别 6.3.1 Wav2vec 2.0 6.3.2 Speech2Text2 6.3.3 HuBERT:隐藏单元BERT 6.4 多模态和多任务变换器 6.4.1 视觉和语言BERT (VilBERT) 6.4.2 统一变换器 (UniT) 6.5 使用Timesformer的视频处理 6.5.1 块嵌入 6.5.2 自注意力 6.5.2.1 空间时间自注意力 6.5.2.2 空间时间注意力块 6.6 图变换器 6.6.1 图中的位置编码 6.6.1.1 拉普拉斯位置编码 6.6.2 图变换器输入 6.6.2.1 无边缘属性的图 6.6.2.2 带边缘属性的图 6.7 强化学习 6.7.1 决策变换器 6.8 案例研究:自动语音识别 6.8.1 目标 6.8.2 数据、工具和库 6.8.3 实验、结果和分析 6.8.3.1 预处理语音数据 6.8.3.2 评估。
Interpretability and Explainability Techniques for Transformers :
7.1 可解释系统的特征 7.2 影响可解释性的相关领域 7.3 可解释方法分类 7.3.1 可视化方法 7.3.1.1 基于反向传播的 7.3.1.2 基于扰动的 7.3.2 模型蒸馏 7.3.2.1 局部近似 7.3.2.2 模型转换 7.3.3 内在方法 7.3.3.1 探针机制 7.3.3.2 联合训练 7.4 注意力与解释 7.4.1 注意力不是解释 7.4.1.1 注意力权重与特征重要性 7.4.1.2 反事实实验 7.4.2 注意力不是不是解释 7.4.2.1 所有任务都需要注意力吗?7.4.2.2 搜索对抗性模型 7.4.2.3 注意力探针 7.5 量化注意力流 7.5.1 信息流作为有向无环图 7.5.2 注意力展开 7.5.3 注意力流 7.6 案例研究:带有解释性的文本分类 7.6.1 目标 7.6.2 数据、工具和库 7.6.3 实验、结果和分析 7.6.3.1 探索性数据分析 7.6.3.2 实验 7.6.3.3 错误分析和解释性。