小白学大模型:斯坦福CS25 Transformers与LLMs

科技   2024-11-11 08:03   广东  

大家好,我是王路情博士,一个坚持早上5点起床、阅读1小时书籍和晨跑5公里的创业者。

我们提供:

1)软件设计与实现服务

2)数据科学与人工智能服务

3)数字化转型咨询与服务

请问有什么需要我们帮助的吗?我的微信:shushengya360。

感恩遇见,共赢未来!


CS25: Transformers United V4 是斯坦福大学(Stanford University)在2024年春季开设的一门课程,从4月4日持续到5月30日。这门课程专注于深度学习领域中的Transformers和大模型。

unsetunset技术发展时间轴unsetunset

  • 1990年代:史前时代,基于规则的方法、解析、递归神经网络(RNNs)、长短期记忆网络(LSTMs)。
  • 2014年:简单的注意力机制。
  • 2017年:论文《Attention is all you need》标志着这一转变。
  • 2018年:Transformers在自然语言处理(NLP)领域的爆炸性增长,BERT、GPT-3等模型的出现。
  • 2018-2020年:Transformers扩展到其他领域,如视觉变换器(ViTs)、Alphafold-2等。
  • 2021-2022年:生成时代的开始,Codex、决策变换器、GPT-X、DALL·E等模型的出现。
  • 2024年:当前时代,大型模型和更多应用的出现,如Chat-GPT、GPT-4、Gemini、Llama、开源LLMs、Whisper、机器人变换器、Stable Diffusion、Sora等。

unsetunsetNLP技术介绍unsetunset

Eliza Chatbot(1966年,麻省理工学院,约瑟夫·魏岑鲍姆)

  • 语言基础:基于规则的方法,语义解析,分析文本的语言结构和语法。

词嵌入技术

  • 将每个词表示为一个“向量”数字。
  • 将“离散”表示转换为“连续”的,允许更精细的词表示,以及余弦/欧几里得距离等有用计算,以及将词映射到语义空间的可视化。
  • 例子包括:Word2Vec(2013年)、GloVe、BERT、ELMo。

序列到序列模型(Seq2seq Models)

  • 循环神经网络(RNNs)、长短期记忆网络(LSTMs)。
  • 处理令牌之间的“依赖性”和信息。
  • 通过门控控制信息的“记忆”和流动。

注意力机制和变换器(Attention and Transformers)

  • 允许模型“聚焦”输入文本的特定方面。
  • 通过一组称为“权重”的参数实现,这些权重决定了在每个时间步应该对每个输入关注多少。
  • 这些权重是使用输入和模型当前隐藏状态的组合计算得出的。
  • 注意力权重通过查询、键和值矩阵的点积计算,然后对点积应用softmax函数。

Q、K、V的类比(Analogy for Q, K, V)

假设你正在寻找特定主题的信息(查询),每本书都有一个概要(键),帮助你识别它是否包含你要找的信息。一旦你找到查询和概要之间的匹配,你就可以访问这本书以获取所需的详细信息(值)。在注意力机制中,我们对多个值进行“软匹配”,例如从多本书中获取信息。

自注意力(Self-Attention)

  • 允许模型在处理序列中的每个单词时,考虑序列中的其他单词,以更好地理解上下文和含义。

Transformer & Multi-Head Attention

  • Transformer完全基于注意力机制,不使用循环或卷积网络。
  • 多头注意力允许模型在不同的表示子空间中联合关注信息,提高了模型的性能和泛化能力。

跨注意力(Cross-Attention,例如机器翻译)

  • 在机器翻译等任务中,跨注意力允许模型关注输入序列的不同部分,以生成更准确的输出。

文章还提供了两个链接,一个是到变换器模型的原始论文《Attention Is All You Need》的链接,另一个是到一个详细解释变换器模型的图解指南。这些资源为读者提供了深入了解变换器模型的途径。

unsetunsetRNN 与 Transformers 对比unsetunset

在自然语言处理(NLP)领域,变换器(Transformers)和循环神经网络(RNNs)是两种处理序列数据的主要模型。以下是对这两种模型的对比:

循环神经网络(RNNs)

  • 长距离依赖性(Long range dependencies):RNNs 在处理长距离依赖问题时表现不佳,因为随着序列的增长,信息可能会逐渐丢失。
  • 梯度消失和梯度爆炸(Gradient vanishing and explosion):在训练过程中,RNNs 可能会遇到梯度消失或梯度爆炸的问题,这使得学习长序列变得困难。
  • 大量的训练步骤(Large # of training steps):由于上述问题,RNNs 通常需要更多的训练步骤来收敛。
  • 每层的复杂度(Complexity per layer):RNNs 的每层复杂度通常是 O(n*d^2),其中 n 是序列长度,d 是特征维度。这种复杂度随着序列长度和特征维度的增加而增加。

Transformers

  • 长距离依赖性(Can model long-range dependencies):Transformers 能够更好地处理长距离依赖性,因为它们使用自注意力机制,可以直接捕捉序列中任意两个位置之间的关系。
  • 无梯度消失和梯度爆炸(No gradient vanishing and explosion):Transformers 避免了梯度消失和梯度爆炸的问题,因为它们不依赖于链式法则来传递信息。
  • 较少的训练步骤(Fewer training steps):由于上述优势,Transformers 通常需要较少的训练步骤来达到相同的性能。
  • 可以并行化计算(Can parallelize computation):Transformers 的架构允许在整个序列上并行处理,这大大提高了训练效率。
  • 每层的复杂度(Complexity per layer):Transformers 的每层复杂度是 O(n^2*d),虽然看起来比 RNNs 高,但由于可以并行化,实际上在实践中可以更快地处理。

unsetunset大型语言模型(LLMs)unsetunset

大型语言模型(LLMs)通常包含数百万到数十亿个参数,通常在大量“通用”文本数据(例如网络语料库)上进行训练。

  • 训练目标通常是“下一个词预测”:给定前文的情况下预测下一个词的概率。
  • 随着模型规模的增加,会出现“突现能力”,例如通过思考链(chain-of-thought)进行推理。
  • 训练成本高昂,涉及时间、金钱和GPU资源。
  • 更大的通用模型可以实现“即插即用”,通过少量或零次学习适应不同任务,无需重新训练。

涌现能力


  • 为什么大型语言模型效果这么好?随着规模扩大会发生什么?
  • 潜在解释:突现能力。
  • 如果一个能力在较大的模型中存在,而在较小的模型中不存在,则被认为是突现的。
  • 这些能力不能通过简单外推较小模型的性能来直接预测。
  • 性能在达到某个临界阈值之前接近随机,然后显著提高,这种现象被称为“相变”,不能通过检查较小规模的系统来预测。

unsetunset强化学习与人类反馈(RLHF)、ChatGPT、GPT-4和Geminiunsetunset

强化学习与人类反馈(RLHF)

  • RLHF是一种技术,它直接从人类反馈中训练一个“奖励模型”。
  • 该技术使用模型作为奖励函数,通过优化算法在强化学习(RL)中优化代理的政策。
  • 要求人类对代理的行为实例进行排名,例如哪个生成的响应更好。

直接偏好优化(DPO)

  • DPO是一种新的参数化方法,它允许从简单的分类损失中提取相应的最优策略,消除了在微调期间从语言模型中采样或进行大量超参数调整的需要。
  • DPO在稳定性、性能和计算效率方面表现出色,并且实验表明DPO至少和现有方法一样有效,包括基于PPO的RLHF。

ChatGPT

  • ChatGPT是在GPT-3.5的基础上微调的,GPT-3.5是一系列使用指令调整和RLHF训练的模型。

GPT-4

  • GPT-4在大型数据集上进行监督学习,然后进行RLHF和RLAIF(从人工智能反馈中进行强化学习)。
  • GPT-4在图像和文本上进行训练,具备视觉能力,能够讨论图像中的幽默、总结屏幕截图文本等。
  • GPT-4比GPT-3.5“更可靠、更有创意,并且能够处理更细微的指令”。
  • GPT-4具有更长的上下文窗口,能够处理8,192和32,768个令牌。
  • GPT-4在标准化测试中表现出色,但未发布GPT-4的技术细节。

Gemini

  • 最新的Gemini 1.5 Pro版本。
  • Gemini Ultra在32个学术基准测试中的30个上表现优于ChatGPT,涉及推理和理解。
  • Gemini有效地处理和整合不同模态的数据:文本、音频、图像和视频。
  • 基于Mixture-of-Experts(MoE)模型,显著提高了训练和应用的效率。

unsetunset链式思考(Chain-of-Thought,CoT)unsetunset

CoT推理是一种提升大型语言模型(Large Language Models,简称LLMs)复杂推理能力的方法。

通过生成一系列中间推理步骤,CoT使得模型在算术、常识和符号推理任务上表现出色。然而,即使CoT在大型模型上取得了性能提升,仍然存在一定比例的错误。

对于规模较小的模型,CoT的效果并不理想,通常需要大约100B参数或更大的模型才能有效。

CoT推理在特定领域和问题类型上具有优势,特别是那些任务具有挑战性且需要多步骤推理的情况,以及任务的扩展曲线相对平坦。

unsetunset大模型与智能体unsetunset

AI Agents能够使用为人类设计的现有界面,操作超出程序边界之外的任务,处理登录、支付等服务,而不受API限制,仅需基本的点击和输入操作。AI代理的关键优势在于它们可以作为用户的数字延伸,代表用户行事,并能够自我学习、自我改进。

AI代理的核心论点是,人类将使用自然语言与AI软件3.0进行交流,AI将操作机器,实现更直观、高效的操作。为了构建这些代理,我们需要使用模型链、反射等机制,并结合记忆、上下文长度、个性化、行动和互联网访问等要素。

为什么我们需要类似人类的AI代理?

首先,它们能够执行人类能够执行的任务,操作人类设计的界面,并在没有API限制的情况下与服务交互。其次,它们可以作为用户的数字延伸,代表用户行事。此外,AI代理具有自我学习能力,可以从用户互动中学习并自我改进。

如何与AI代理进行交互?

在计算机交互方面,AI代理可以通过API或直接交互(如浏览器或桌面控制)与计算机进行交互。这两条路径各有优势:API交互易于构建上下文,更安全、可控;而直接交互则允许自由形式的交互。


版权声明:版权属于作者,仅用于学习。


感恩遇见,共赢未来!我的微信,欢迎添加!


    据统计,99%的大咖都关注了这个公众号

    👇

数据科学与人工智能
学习和实践数据科学与人工智能
 最新文章