一文彻底搞懂大模型 - 神经网络语言模型（NNLM）

文摘科技 2024-09-11 20:06 湖北

神经网络语言模型

神经网络语言模型（Neural Network Language Model, NNLM）是一种利用神经网络架构来预测文本序列中下一个词的语言模型。NNLM通过学习大量文本数据中的词汇之间的概率关系，能够捕捉到语言的结构和语境，从而生成连贯且符合上下文的文本。

本文旨在结合经典论文《A Neural Probabilistic Language Model》的内容，详细解析NNLM的基本原理、网络架构及模型训练。

一种神经概率语言模型

一、NNLM的基本原理

Yoshua Bengio及其团队在2003年的论文《A Neural Probabilistic Language Model》中首次展示了如何使用神经网络（特别是多层感知器MLP）来构建语言模型，这一工作不仅为后续的深度学习在NLP中的应用奠定了基石，还意外地催生了词嵌入（word embedding）这一重要概念。

NNLM的核心思想：利用神经网络来建模自然语言中的词语序列，从而预测给定上下文条件下下一个词出现的概率。与传统的n-gram模型相比，NNLM能够捕捉更长的上下文依赖关系，并且通过词嵌入技术将词语映射到连续的向量空间中，使得相似的词语在向量空间中具有相近的表示。

NNLM开山之作

NNLM中的Distributed Representation（分布式表示）是Embedding（嵌入）最早的理论支撑之一，它代表了一种将单词或文本表示为连续向量空间的技术。这种表示方法相比传统的独热编码（One-Hot Encoding）具有显著的优势，能够捕捉到单词之间的语义关系。

减少维度灾难：传统的独热编码方式在词汇表很大时会导致向量维度极高，而分布式表示则通过低维向量表示单词，大大减少了计算复杂度。
捕捉语义信息：分布式表示能够捕捉到单词之间的语义相似性，使得在向量空间中相似的单词具有相近的表示，这对于处理NLP任务至关重要。
提高模型泛化能力：由于分布式表示能够捕捉到单词之间的语义关系，因此模型在处理未见过的单词或句子时具有更好的泛化能力。

distributed representation vs one-hot representation

二、NNLM的网络架构

NNLM的目标：NNLM是一个用于语言建模的神经模型，该模型旨在学习一个函数f，该函数可以根据给定的前置词汇预测序列中的下一个词汇。

函数f

模型 f 分解为两个主要部分：词嵌入层（C）和概率函数（g）。词嵌入层将词汇转换为向量表示，而概率函数则利用这些向量预测文本序列中下一个词汇的概率分布。

词嵌入层（C）：将词汇表中的每个词汇转换成一个实值向量。这些向量代表了词汇的分布式特征，即它们不仅仅表示词汇本身，还包含了词汇在不同上下文中的语义信息。
概率函数（g）：
根据给定的上下文信息来预测下一个词汇出现的概率。由多个词汇组成的上下文（比如前面的n-1个词汇），概率函数g会利用这些词汇的向量表示（即词嵌入层输出的向量）来估计下一个词汇出现的概率分布。

词嵌入层（C）和概率函数（g）

NNLM的网络架构：根据《A Neural Probabilistic Language Model》中的描述，NNLM主要由输入层、隐藏层及输出层三部分组成。通过输入层接收前文单词序列的向量表示，在隐藏层中捕捉复杂的语言结构，最后在输出层输出每个单词作为下一个词出现的概率分布。

NNLM的网络架构

一、输入层

输入层

作用：输入层负责接收原始数据，并将其转换为神经网络可以处理的格式。在自然语言处理中，输入层通常接收的是词汇的向量表示，即词嵌入（word embedding）。
上下文词汇向量：如上文所述，输入层连接的是上下文词汇向量x = (C(wt-1), C(wt-2), …, C(wt-n+1))，其中C(wt-i)表示在时间步t-i时词汇wt-i的词嵌入向量。这些向量共同构成了神经网络的输入。

二、隐藏层

隐藏层

作用：隐藏层是神经网络中的核心部分，负责学习数据的复杂特征表示。在自然语言处理中，隐藏层通常包含多个神经元，并且这些神经元之间以及与前一层和下一层之间都有连接。
非线性激活函数：为了引入非线性，隐藏层中的神经元通常使用非线性激活函数，如双曲正切函数（tanh）。激活函数使得神经网络能够学习非线性关系，从而捕捉数据的复杂模式。
权重和偏置：隐藏层中的每个神经元都与其前一层的神经元通过权重矩阵U和H（以及偏置向量d）相连接。这些权重和偏置在训练过程中被学习，以最小化预测误差。

三、输出层

输出层

作用：输出层是神经网络的最后一层，负责产生最终的预测结果。在自然语言处理中，输出层通常使用softmax函数将隐藏层的输出转换为概率分布，以便在每个时间步预测下一个词汇。
softmax函数：softmax函数将隐藏层的输出转换为概率分布P^(wt | wt-1, …, wt-n+1)。这个概率分布表示在给定上下文条件下，每个词汇作为下一个词汇的概率。
预测：最终，神经网络通过选择概率最高的词汇作为预测结果。

NNLM的网络架构

三、NNLM的模型训练

NNLM的模型训练：NNLM的训练过程旨在最大化训练数据中序列的联合概率，即最大化给定前文单词的条件下，下一个单词出现的概率。在训练过程中，分布式表示（即词嵌入）是作为模型的训练参数之一进行更新的。

NNLM

NNLM训练过程：通过前向传播计算输出，利用损失函数评估差异，然后反向传播更新权重，迭代优化直至收敛或达到预设迭代次数。这通常通过最小化负对数似然（negative log-likelihood）损失函数来实现。

最小化负对数似然

其中 R( θ) 是正则化项（例如，权重衰减），使用随机梯度上升法更新参数 θ：

更新参数 θ

其中 ϵ 是学习率。

http://mp.weixin.qq.com/s?__biz=MzkzMTEzMzI5Ng==&mid=2247491577&idx=1&sn=3e67a681a628c5db95986a9b7189310e

架构师带你玩转AI

分享人工智能，让所有人玩转AI

最新文章

好书推荐 - 《大型语言模型实战指南》

大模型实战 - 神经网络语言模型

好书推荐 - 《线性代数与数据学习》

一文彻底搞懂大模型 - 开源数据标注平台Label Studio

一文彻底搞懂RNN - 模型架构（Model Architecture）

大模型面试 - 分词（Tokenization）

一文彻底搞懂大模型 - 神经网络语言模型（NNLM）

大模型面试 - 激活函数（Activation Function）

好书推荐 - 《AIGC大语言模型轻松学：从个人应用到企业实践》

一文彻底搞懂大模型 - 统计语言模型

大模型实战 - 统计语言模型

一文彻底搞懂大模型 - 贝叶斯网络（Bayesian Network）

大模型面试 - 梯度下降（Gradient Descent）

一文彻底搞懂大模型 - 隐马尔可夫模型（HMM）

一文彻底搞懂大模型 - 最大熵模型

一文彻底搞懂大模型 - 人工神经网络与贝叶斯网络

大模型实战 - Agent（智能体）

好书推荐 - 《多模态人工智能：大模型核心原理与关键技术》

一文彻底搞懂大模型 - GPT和LlaMA的模型架构

大模型面试 - 损失函数（Loss Function）

一文彻底搞懂大模型 - 语言模型的发展历程

一文彻底搞懂大模型 - LLM的构建流程

大模型面试 - 反向传播（Back Propagation）

GLM-4-Flash免费：在线微调GLM-4-Flash + Function Calling搭建法律知识库

无法解释LLM的智能涌现，可以从神经元的基本原理入手

一文彻底搞懂大模型 - RAG（检索、增强、生成）

大模型实战 - RAG（检索、增强、生成）

好书推荐 - 《LeeDL Tutorial 深度学习详解》

一文彻底搞懂大模型 - Attention：联合对齐和翻译（Align And Translate）

一文彻底搞懂大模型 - AI四次大发展

大模型面试 - 参数和超参数（Parameters vs Hyperparameters）

一文彻底搞懂大模型 - Fine-tuning三种微调方式

一文彻底搞懂大模型 - LLM四阶段技术

大模型实战 - Function Calling（函数调用）

大模型面试 -深度学习第二部分课程简介

好书推荐 - 《大规模语言模型：从理论到实践》

一文彻底搞懂大模型 - Prompt Engineering（提示工程）

大模型面试 - 大模型的奠基者（Transformer）

一文彻底搞懂大模型 - Agent（智能体）

一文彻底搞懂大模型 - Prompt Engineering、Function Calling、RAG、Fine-tuning

大模型面试 - 残差神经网络（ResNet）

glm-4-long 1M（约150-200万字）上下文：解锁超长文本处理

大模型实战 - Fine-tuning（LoRA + LLaMA-Factory）

一文彻底搞懂Fine-tuning - 训练和推理（Training vs Inference）

大模型面试 - 图神经网络（GNN）

Transformer动画讲解 - 注意力工作原理（Q、K、V）

大模型实战 - Embedding（Word2Vec、Text2Vec）

一文彻底搞懂Fine-tuning - 参数高效微调（Parameter-Efficient Fine-Tuning）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉