这本关于Transformer模型的书真的写的太棒了！世界上第一本把Transformer进行了全面、系统级解读的书籍！

文摘 2024-08-21 18:58 湖南

----求关注求点赞非常感谢！----

截止于到目前，这是世界上第一本把Transformer进行了全面、系统级解读的书籍，共包含了60多个transformer架构，你可以掌握每个架构的理论知识与实用技巧，以及如何在现实场景中去使用它。

不管是深度学习初学者还是具备一定基础的同学，我都强烈推荐大家去看一看！

作者通过七个大的章节彻彻底底的把Transformer架构进行了非常底朝天式的解读，如果你需要这本书的高清电子版本，可以直接长按屏幕扫码添加我的助手让她无偿及时发送给大家！

可以直接长按扫码添加

第一章从时间线、历史及其对学术界和工业界的影响向读者简单的介绍了Transformer架构。

第二章开始介绍序列到序列模型及其局限性，然后全面且详细介绍了Transformer的各种构造模块，像：注意力、多头注意力、位置编码、残差连接和编码器、解码器框架等等，且当中的每一个模块都是通过理论结合实践的角度进行详细的论述，非常非常容易理解。

第三章主要是详细介绍了bert架构的具体细节，以及如何对经典的nlp任务进行预训练和微调。

后面几个章节主要是详细介绍了各种基于Transformer架构的变体模型。

以及如何在语言、文本、时间序列与计算机视觉中应用transformer技术、还有Transformer可解释性技术的解读，当中的每一个进行理论和实际现实分析的实践案例研究和代码片段，都可以在谷歌Colab中运行。

具体目录内容（真的巨全巨详细！）：

Deep Learning and Transformers: An Introduction ：

简介 1.1 深度学习：历史视角 1.2 变换器及其分类 1.2.1 改进的变换器架构 1.2.1.1 变换器块的改变 1.2.1.2 变换器子层的变化 1.2.2 预训练方法及应用 1.3 资源 1.3.1 库和实现 1.3.2 书籍 1.3.3 课程、教程和讲座 1.3.4 案例研究和细节。

Transformers: Basics and Introduction ：

基础和介绍 2.1 编码器-解码器架构 2.2 序列到序列 2.2.1 编码器 2.2.2 解码器 2.2.3 训练 2.2.4 基于RNN的编码器解码器问题 2.3 注意力机制 2.3.1 背景 2.3.2 基于评分的注意力类型 2.3.2.1 点积（乘法） 2.3.2.2 缩放点积或乘法 2.3.2.3 线性、MLP或加法 2.3.3 基于注意力的序列到序列 2.4 变换器 2.4.1 源和目标表示 2.4.1.1 词嵌入 2.4.1.2 位置编码 2.4.2 注意力层 2.4.2.1 自注意力 2.4.2.2 多头注意力 2.4.2.3 掩码多头注意力 2.4.2.4 编码器-解码器多头注意力 2.4.3 残差和层归一化 2.4.4 位置前馈网络 2.4.5 编码器 2.4.6 解码器 2.5 案例研究：机器翻译 2.5.1 目标 2.5.2 数据、工具和库 2.5.3 实验、结果和分析 2.5.3.1 探索性数据分析 2.5.3.2 注意力 2.5.3.3 变换器 2.5.3.4 结果和分析 2.5.3.5 可解释性。

Bidirectional Encoder Representations from Transformers (BERT) ：

3.1 BERT 3.1.1 架构 3.1.2 预训练 3.1.3 微调 3.2 BERT 变体 3.2.1 RoBERTa 3.3 应用 3.3.1 TaBERT 3.3.2 BERTopic 3.4 BERT 洞察 3.4.1 BERT 句子表示 3.4.2 BERT学 3.5 案例研究：使用变换器的主题建模 3.5.1 目标 3.5.2 数据、工具和库 3.5.2.1 数据 3.5.2.2 计算嵌入 3.5.3 实验、结果和分析 3.5.3.1 构建主题 3.5.3.2 主题大小分布 3.5.3.3 主题可视化 3.5.3.4 主题内容 3.6 案例研究：微调BERT 3.6.1 目标 3.6.2 数据、工具和库 3.6.3 实验、结果和分析。

Multilingual Transformer Architectures ：

4.1 多语言变换器架构 4.1.1 基本多语言变换器 4.1.2 单编码器多语言NLU 4.1.2.1 mBERT 4.1.2.2 XLM 4.1.2.3 XLM-RoBERTa 4.1.2.4 ALM 4.1.2.5 Unicoder 4.1.2.6 INFOXL 4.1.2.7 AMBER 4.1.2.8 ERNIE-M 4.1.2.9 HITCL 4.1.3 双编码器多语言NLU 4.1.3.1 LaBSE 4.1.3.2 mUSE 4.1.4 多语言NLG 4.2 多语言数据 4.2.1 预训练数据 4.2.2 多语言基准 4.2.2.1 分类 4.2多语言基准 4.2.2.2 结构预测 4.2.2.3 问题回答 4.2.2.4 语义检索 4.3 多语言迁移学习洞察 4.3.1 零样本跨语言学习 4.3.1.1 数据因素 4.3.1.2 模型架构因素 4.3.1.3 模型任务因素 4.3.2 语言无关的跨语言表示 4.4 案例研究 4.4.1 目标 4.4.2 数据、工具和库 4.4.3 实验、结果和分析 4.4.3.1 数据预处理 4.4.3.2 实验。

Transformer Modifications：

5.1 变换器块修改 5.1.1 轻量级变换器 5.1.1.1 Funnel-Transformer 5.1.1.2 DeLighT 5.1.2 变换器块之间的连接 5.1.2.1 RealFormer 5.1.3 自适应计算时间 5.1.3.1 Universal Transformers (UT) 5.1.4 变换器块之间的递归关系 5.1.4.1 Transformer-XL 5.1.5 分层变换器 5.2 带有修改的多头自注意力变换器 5.2.1 多头自注意力的结构 5.2.1.1 多头自注意力 5.2.1.2 空间和时间复杂度 5.2.2 降低自注意力的复杂度 5.2.2.1 Longformer 5.2.2.2 Reformer 5.2.2.3 Performer 5.2.2.4 Big Bird 5.2.3 改进多头注意力 5.2.3.1 Talking-Heads Attention 5.2.4 使用先验偏置注意力 5.2.5 原型查询 5.2.5.1 聚类注意力 5.2.6 压缩键-值记忆 5.2.6.1 Luna: 线性统一嵌套注意力 5.2.7 低秩近似 5.2.7.1 Linformer 5.3 训练任务效率的修改 5.3.1 ELECTRA 5.3.1.1 替换标记检测 5.3.2 T5 5.4 变换器子模块变化 5.4.1 Switch Transformer 5.5 案例研究：情感分析 5.5.1 目标 5.5.2 数据、工具和库 5.5.3 实验、结果和分析 5.5.3.1 可视化注意力头权重 5.5.3.2 分析。

Pretrained and Application-Specific Transformers ：

6.1 文本处理 6.1.1 域特定变换器 6.1.1.1 BioBERT 6.1.1.2 SciBERT 6.1.1.3 FinBERT 6.1.2 文本到文本变换器 6.1.2.1 ByT5 6.1.3 文本生成 6.1.3.1 GPT：生成式预训练 6.1.3.2 GPT-2 6.1.3.3 GPT-3 6.2 计算机视觉 6.2.1 视觉变换器 6.3 自动语音识别 6.3.1 Wav2vec 2.0 6.3.2 Speech2Text2 6.3.3 HuBERT：隐藏单元BERT 6.4 多模态和多任务变换器 6.4.1 视觉和语言BERT (VilBERT) 6.4.2 统一变换器 (UniT) 6.5 使用Timesformer的视频处理 6.5.1 块嵌入 6.5.2 自注意力 6.5.2.1 空间时间自注意力 6.5.2.2 空间时间注意力块 6.6 图变换器 6.6.1 图中的位置编码 6.6.1.1 拉普拉斯位置编码 6.6.2 图变换器输入 6.6.2.1 无边缘属性的图 6.6.2.2 带边缘属性的图 6.7 强化学习 6.7.1 决策变换器 6.8 案例研究：自动语音识别 6.8.1 目标 6.8.2 数据、工具和库 6.8.3 实验、结果和分析 6.8.3.1 预处理语音数据 6.8.3.2 评估。

Interpretability and Explainability Techniques for Transformers ：

7.1 可解释系统的特征 7.2 影响可解释性的相关领域 7.3 可解释方法分类 7.3.1 可视化方法 7.3.1.1 基于反向传播的 7.3.1.2 基于扰动的 7.3.2 模型蒸馏 7.3.2.1 局部近似 7.3.2.2 模型转换 7.3.3 内在方法 7.3.3.1 探针机制 7.3.3.2 联合训练 7.4 注意力与解释 7.4.1 注意力不是解释 7.4.1.1 注意力权重与特征重要性 7.4.1.2 反事实实验 7.4.2 注意力不是不是解释 7.4.2.1 所有任务都需要注意力吗？7.4.2.2 搜索对抗性模型 7.4.2.3 注意力探针 7.5 量化注意力流 7.5.1 信息流作为有向无环图 7.5.2 注意力展开 7.5.3 注意力流 7.6 案例研究：带有解释性的文本分类 7.6.1 目标 7.6.2 数据、工具和库 7.6.3 实验、结果和分析 7.6.3.1 探索性数据分析 7.6.3.2 实验 7.6.3.3 错误分析和解释性。

http://mp.weixin.qq.com/s?__biz=MzkyOTQwOTMzMg==&mid=2247490781&idx=1&sn=480ffb91fdc1d84622bcc67e2410c52c

AI算法工程师Future

B站同名，日常分享人工智能领域知识及学习资源。

不能再详细了！机器学习深度学习研究生3年切实可行的规划路径思维导图，花了我半个多月的时间终于做出来了！

不想到处找教程？这本ML教程册子囊括了12种所有常用的机器学习算法！而且图文并茂、深入浅出！有着超绝的阅读体验！

真的好发论文！建议医学方向的同学看看这本【基于深度学习的医学图像数据可视化分析与处理】

目标检测必学经典模型：SSD模型的搭建、训练与测试详细教程！

想学机器学习深度学习但是没有数学基础怎么办？如何不浪费时间针对性的学，这两本书是我一直都非常推荐的！一本国内一本国外！

只想看书来掌握深度学习？那就看这三本吧！入门-进阶-实战！

找不到论文代码怎么办？给计算机视觉方向的研1新手整理的论文代码汇总文档来啦！！一半经典一半前沿！不用自己到处翻论文了！

认真写书的教授都是好老师！国内写深度学习最好的一本书！它>统计学习方法>西瓜书

初学者话题：学习机器学习需要哪些基础知识呢？今天一次性给大家说的明明白白！

初学深度学习的同学们！建议先看这册综述来对深度学习建立一个宏观且深度的了解！

学习摸不着头脑？研1小白如何正确不踩坑的快速入门图像/语义分割方向？路线图来啦！

刚进组的研1小白入门机器学习深度学习需要多久时间？这篇文章绝对带你彻底搞明白！

AI在金融领域发挥重大作用！安利给金融生和金融从业者的金融人工智能书！写的真的太棒了！

纯小白在搞医疗AI方向，怎么快速入门啊？非常细致的给你讲清楚针对性的最佳学习路径！

小白怎么从零快速发表/水一篇深度学习论文啊？？有没有好的学习路径？

刚读研，深度学习直接上花书吗？要先学机器学习吗？感觉要学的东西好多啊不知道怎么去学，有没有学习路线啊？？？

整理到鼠标都快点烂了！应该是全网机器学习深度学习学习资源最全汇总了吧，一次性让你找到全网优质学习资源！

对国内同学友好+学完就能让你立马用起来的深度学习教程，应该就只有这一个了！

希望大家都不要踩坑！本科生研究生快速入门深度学习目标检测方向的学习路径分享！

写这么好干嘛？这本24年的新书让我轻松学会了复现各种经典主流深度学习模型！

不能再详细了！使用YOLO V5训练自己的数据集，从环境搭建开始教你！

这绝对是国内基于Pytorch学深度学习最好的书！！终于把各种神经网络、建模、调参都给搞明白了！

看得我酣畅淋漓！豆瓣9.6分！这本书为什么是大家公认最好的机器学习书籍？

终于搞懂了卷积神经网络：卷积层，池化层，全连接层！图文并茂、透彻解析！

深度学习最热or好发论文的方向！今年最全的多模态大模型综述来啦！由西工大在8月2号发布！

【深度学习基本功】基于PyTorch来实现图像分类任务！所有代码都有详细注释！

按阶段划分！学习人工智能的12本优质书籍分享！不用再纠结什么阶段看什么书了！

豆瓣评分9.2，被认为是史上有关金融与机器学习的最佳书籍！由利用AI算法管理数个10亿美元基金的巨佬撰写！

决定机器学习的上限！一文带你搞懂起到核心作用的特征工程技术！

这本关于Transformer模型的书真的写的太棒了！世界上第一本把Transformer进行了全面、系统级解读的书籍！

建议所有神经网络初学者把它作为第一本书来阅读！豆瓣9.2分！当当1万4千多评价好评率99.9%！

读研读博真得靠自己！拥有20多篇SCI的斯坦福博士的科研入门中文教程，帮你避开要踩几年的坑，养成完善的科研习惯！

麻了！刚开始学机器学习深度学习，知道数学很重要，但具体应该学哪些数学知识呢？

机器学习领域权威：中科院博士纯手写的机器学习西瓜书手推笔记，让你学习效率翻倍！

10大主流机器学习算法教程分享！据说国内90%的ML教程文档都是翻译抄袭这的！

从零基础到成功发表一篇深度学习论文需要准备什么、需要多少时间？

一文上千字带你通透看懂神经网络中的梯度下降和反向传播！

如果你想要深刻理解机器学习算法，这本24年的新书真的很适合！

GitHub星标26K！来自谷歌大脑团队精心制作的深度学习调参指南手册中文版！全是经验啊！

刚学机器学习深度学习，但看不懂开源项目的文件是什么意思怎么办？？？点进来就解决了！

kaggle上拿了1477块奖牌的大神写了一本号称可以解决几乎所有机器学习深度学习问题的神书！

终于搞懂了PyTorch神经网络构建与Tensorboard可视化直观显示了！绝对的通俗易懂讲解！

有了这个星标近10k的CNN卷积神经网络可视化解读工具，不可能学不会CNN了！

GitHub标星12.7K！如果你深受机器学习深度学习数学基础困扰，那这个就太适合你了！

4个可以帮助深度学习新手快速提升代码能力的宝藏工具！标星近百K！！

一定要懂！手把手带你搞懂推动深度学习发展的里程碑之作AlexNet网络！

这本信号处理与机器学习书让我轻松掌握了如何使用机器学习方法来处理各种信号数据！

GitHub星标21.8k！作者登顶github热门开发者榜单榜首！LLM大模型神仙入门教程分享！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉