一文彻底搞懂大模型 - GPT和LlaMA的模型架构

文摘科技 2024-08-30 22:41 湖北

GPT vs LlaMA

GPT与LlaMA，作为大语言模型的两大巨擘，均基于Transformer架构却各有千秋。GPT系列以强大的生成能力著称，通过不断增大的参数规模引领复杂语言与推理任务的前沿；而Llama则以开源姿态，通过技术创新提升模型性能，预示着多模态扩展的未来，为AI生态的多样性和开放性贡献力量。

GPT vs LlaMA

一、GPT

什么是GPT？GPT模型，全称为Generative Pre-trained Transformer，是由OpenAI团队开发的一种基于深度学习的自然语言处理（NLP）模型。该模型通过无监督学习的方式，对大规模文本进行学习和抽象概括，进而通过微调的方式用于各种特定的自然语言处理任务。

GPT

GPT的版本迭代：OpenAI GPT模型自发布以来，已经历了多个版本的迭代升级，每个版本都在前一版本的基础上进行了改进和优化。

GPT的版本迭代

GPT-1：这是GPT系列的第一个版本，发布于2018年。GPT-1具有1.17亿个参数，使用Transformer的Decoder结构作为基础，并采用了预训练的语言模型。它在多项自然语言处理任务上取得了很好的表现，如文本生成、机器翻译和阅读理解等。
GPT-2：GPT-2是GPT系列的第二个版本，发布于2019年。相比于GPT-1，GPT-2在模型规模和预训练数据上都有了显著的提升。GPT-2的参数数量增加到了15亿，并使用了更多的预训练数据。这些改进使得GPT-2在生成任务上表现出了更强的创造力和语言理解能力，能够生成更长、更连贯的文本。
GPT-3：GPT-3是GPT系列的第三个版本，发布于2020年。GPT-3具有惊人的1750亿个参数。这一巨大的模型规模使得GPT-3能够处理更加复杂和多样的自然语言处理任务，包括文本生成、翻译、问答和文本分类等。GPT-3在预训练过程中使用了大量的互联网文本数据，进一步提升了其性能和泛化能力。
GPT-4：GPT-4是GPT系列的第四个版本，发布于2023年3月。GPT-4是一款具有广泛应用的大型、多模态模型。与之前的版本不同，GPT-4是第一个能够同时接收文本和图像的多模态模型。它不仅可以接收文本输入，还能接收图像输入，并生成相应的文本输出。GPT-4在各种专业和学术基准测试中表现出色，显示出其强大的自然语言处理能力和多模态理解能力。

GPT的版本迭代

GPT2的架构：GPT-3及以后的版本采取了闭源的策略，模型的具体实现细节、训练数据、超参数配置等关键信息并未对外公开。

GPT-2的架构主要基于Transformer的解码器（Decoder）部分，并通过堆叠多个Decoder层、引入自注意力机制和位置编码、使用残差连接和层归一化等技术手段来构建模型。

GPT-2的架构

1. 堆叠Transformer的Decoder

GPT-2沿用了Transformer的解码器部分，通过堆叠多个Decoder层来构建模型。每个Decoder层都包含了自注意力（Self-Attention）机制和位置编码（Position Encoding）等关键组件。
GPT-2的堆叠层数可以根据具体需求进行调整，但通常包括多个（如12层）Decoder层，以提供足够的深度来捕捉文本中的复杂依赖关系。

2. 自注意力机制（Self-Attention）

自注意力机制是Transformer和GPT-2中的核心组件，它允许模型在处理文本时同时关注到文本中的其他部分。
在GPT-2中，自注意力机制通过计算输入序列中每个单词与其他单词之间的相关性来实现，从而帮助模型理解文本的全局上下文信息。

3. 位置编码（Position Encoding）

由于Transformer模型本身并不包含任何关于单词位置的信息，GPT-2引入了位置编码来弥补这一缺陷。
位置编码是一种将单词在序列中的位置信息嵌入到模型中的方法，它使得模型能够区分不同位置的单词并理解它们的顺序关系。

4. 残差连接（Residual Connections）和层归一化（Layer Normalization）

GPT-2在Decoder层之间使用了残差连接和层归一化技术，以提高模型的训练稳定性和收敛速度。
残差连接允许模型在传递信息时保留前一层的部分输出，从而避免了深层网络中的梯度消失或梯度爆炸问题。
层归一化则通过对每一层的输入进行归一化处理，使得模型的每一层都能够在相似的尺度上工作，进一步提高了模型的稳定性和性能。

5. 输出层

GPT-2的输出层通常包括一个线性层（Linear Layer）和一个Softmax层，用于将Decoder层的输出映射到词汇表上的概率分布。
通过这种方式，GPT-2可以根据输入的上文生成对应的下文单词，从而实现文本生成任务。

GPT-2的架构

二、LlaMA

什么是LlaMA？LLaMA的全称是Large Language Model Meta AI，直译为“大语言模型元AI”。由于“Llama”在西班牙语中意为“羊驼”，因此社区也将其昵称为羊驼系模型。

LLaMA于2023年2月由Meta AI发布，是该系列的初代模型。随后，Meta AI又相继推出了LLaMA2和LLaMA3等升级版本。

训练数据：LLaMA的训练数据来源于公开数据集，无任何定制数据集，确保了其工作的开源兼容性和可复现性。整个训练数据集在token化之后大约包含1.4T的token。随着版本的迭代，训练数据的规模不断增加，LLaMA3甚至基于超过15万亿个token的数据进行预训练。
模型规模：LLaMA提供了多种规模的版本，包括7B、13B、70B和405B（4050亿）等不同参数量的模型。这些模型可以根据具体的应用场景和计算资源进行选择。
性能优异：LLaMA在多个基准测试上表现出色，甚至能够媲美或超越一些参数量更大的模型。例如，具有130亿参数的LLaMA模型在大多数基准上可以胜过GPT-3（参数量达1750亿）。

LlaMA

LlaMA的架构：LLaMA模型的整体架构与GPT-2等Transformer模型类似，但针对稳定性和性能进行了多项改进。它采用了前置层归一化（Pre-normalization）、RMSNorm归一化函数、SwiGLU激活函数以及旋转位置嵌入（RoPE）等关键技术。

LlaMA的架构

前置层归一化（Pre-normalization）

为了提升训练时的稳定性，LLaMA将归一化操作从Transformer子层的输出移到了输入。具体地，第一层归一化被设置在多头注意力层之前，第二层归一化被移动到全连接层之前。同时，残差连接的位置也调整到了多头注意力层与全连接层之后。这种设计有助于减少梯度消失或爆炸的问题，从而提高训练稳定性。

RMSNorm归一化函数

LLaMA在归一化过程中使用了RMSNorm（Root Mean Square Layer Normalization），这是一种基于均方根（RMS）的归一化方法。RMSNorm不依赖于均值，而是通过计算特征向量的RMS值来进行归一化。这种方法在计算上更为简洁，且在某些情况下可以提供类似甚至更好的性能。在LLaMA中，RMSNorm还加入了可学习的缩放因子和偏移参数，以进一步提高模型的灵活性。

SwiGLU激活函数

LLaMA使用了SwiGLU（Swish-Gated Linear Unit）激活函数，这是Shazeer在文献中提出的一种激活函数，并在PaLM等模型中得到了广泛应用。相较于传统的ReLU函数，SwiGLU在很多评测数据集上表现出了更好的性能。在LLaMA中，全连接层使用了带有SwiGLU激活函数的计算方式，这有助于提升模型的非线性处理能力。

旋转位置嵌入（RoPE）

LLaMA没有使用传统的绝对位置编码（如BERT中的sin/cos位置编码），而是采用了旋转位置嵌入（RoPE）。RoPE借助了复数的思想，通过绝对位置编码的方式实现了相对位置编码的效果。这种方法能够更有效地捕捉序列中的位置信息，从而提升模型在处理序列数据时的性能。

http://mp.weixin.qq.com/s?__biz=MzkzMTEzMzI5Ng==&mid=2247491281&idx=1&sn=c5c6b8e657a774a44bfef23656d6850a

架构师带你玩转AI

分享人工智能，让所有人玩转AI

最新文章

好书推荐 - 《大型语言模型实战指南》

大模型实战 - 神经网络语言模型

好书推荐 - 《线性代数与数据学习》

一文彻底搞懂大模型 - 开源数据标注平台Label Studio

一文彻底搞懂RNN - 模型架构（Model Architecture）

大模型面试 - 分词（Tokenization）

一文彻底搞懂大模型 - 神经网络语言模型（NNLM）

大模型面试 - 激活函数（Activation Function）

好书推荐 - 《AIGC大语言模型轻松学：从个人应用到企业实践》

一文彻底搞懂大模型 - 统计语言模型

大模型实战 - 统计语言模型

一文彻底搞懂大模型 - 贝叶斯网络（Bayesian Network）

大模型面试 - 梯度下降（Gradient Descent）

一文彻底搞懂大模型 - 隐马尔可夫模型（HMM）

一文彻底搞懂大模型 - 最大熵模型

一文彻底搞懂大模型 - 人工神经网络与贝叶斯网络

大模型实战 - Agent（智能体）

好书推荐 - 《多模态人工智能：大模型核心原理与关键技术》

一文彻底搞懂大模型 - GPT和LlaMA的模型架构

大模型面试 - 损失函数（Loss Function）

一文彻底搞懂大模型 - 语言模型的发展历程

一文彻底搞懂大模型 - LLM的构建流程

大模型面试 - 反向传播（Back Propagation）

GLM-4-Flash免费：在线微调GLM-4-Flash + Function Calling搭建法律知识库

无法解释LLM的智能涌现，可以从神经元的基本原理入手

一文彻底搞懂大模型 - RAG（检索、增强、生成）

大模型实战 - RAG（检索、增强、生成）

好书推荐 - 《LeeDL Tutorial 深度学习详解》

一文彻底搞懂大模型 - Attention：联合对齐和翻译（Align And Translate）

一文彻底搞懂大模型 - AI四次大发展

大模型面试 - 参数和超参数（Parameters vs Hyperparameters）

一文彻底搞懂大模型 - Fine-tuning三种微调方式

一文彻底搞懂大模型 - LLM四阶段技术

大模型实战 - Function Calling（函数调用）

大模型面试 -深度学习第二部分课程简介

好书推荐 - 《大规模语言模型：从理论到实践》

一文彻底搞懂大模型 - Prompt Engineering（提示工程）

大模型面试 - 大模型的奠基者（Transformer）

一文彻底搞懂大模型 - Agent（智能体）

一文彻底搞懂大模型 - Prompt Engineering、Function Calling、RAG、Fine-tuning

大模型面试 - 残差神经网络（ResNet）

glm-4-long 1M（约150-200万字）上下文：解锁超长文本处理

大模型实战 - Fine-tuning（LoRA + LLaMA-Factory）

一文彻底搞懂Fine-tuning - 训练和推理（Training vs Inference）

大模型面试 - 图神经网络（GNN）

Transformer动画讲解 - 注意力工作原理（Q、K、V）

大模型实战 - Embedding（Word2Vec、Text2Vec）

一文彻底搞懂Fine-tuning - 参数高效微调（Parameter-Efficient Fine-Tuning）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉