一文彻底搞懂大模型 - 人工神经网络与贝叶斯网络

文摘科技 2024-09-02 23:33 湖北

ANN History

大模型，特别是那些拥有数十亿甚至更多参数的深度学习模型，往往是以人工神经网络为基础的。这些模型通过堆叠多个隐藏层、增加神经元数量和使用复杂的非线性激活函数，来构建能够处理复杂任务（如自然语言处理、图像识别等）的深度神经网络。

大语言模型

一、大模型与人工神经网络的关系

什么是人工神经网络（ANN）？人工神经网络（ANN）是一种模仿生物神经网络结构和功能的计算模型。它由多个层组成，包括输入层、隐藏层（可能有多层）和输出层。每一层都包含多个神经元（或称为节点），这些神经元通过带权重的连接相互连接。

ANN

输入层接收外部数据，隐藏层对数据进行处理，输出层则产生最终的输出。神经元的激活通常通过一个非线性函数（如sigmoid、ReLU等）来实现，这使得网络能够学习复杂的非线性关系。

ANN

大模型与人工神经网络的关系：LLM的核心是ANN（人工神经网络），基于人工神经网络构建更大规模和复杂度更高的深度学习模型。

PLM（预训练模型）：预训练语言模型通常使用互联网上的海量文本数据作为训练语料，这些语料库可能包含数十亿甚至数千亿个单词。这些模型通过在大量的未标注文本数据上进行学习，掌握了语言的共性和规律，进而能够应用于各种NLP下游任务。
数据 + 算力：算力作基础，数据为驱动；无监督预训练（Pre-training），有监督微调（Fine-tuning）。
权重w和偏置b：模型参数包括每一层的权重(weight)和偏置项(bias)。这些参数在训练过程中通过反向传播算法进行调整，以最小化损失函数。

LLM 》DL 》ANN

二、人工神经网络与贝叶斯网络的关系

什么是贝叶斯网络（BN）？贝叶斯网络（Bayesian Network，简称BN）是一种基于概率推理的图形模型，用于表示变量之间的依赖关系。它由一个有向无环图（Directed Acyclic Graph，DAG）和条件概率表（Conditional Probability Table，CPT）组成。

Bayesian Network

有向无环图（DAG）：用于表示变量之间的依赖关系。图中的节点代表变量，有向边（或称为弧）则表示变量之间的依赖关系。如果两个节点之间存在有向边，则意味着一个节点的状态会影响另一个节点的状态。
条件概率表（CPT）：与DAG中的每个节点相关联，用于描述节点与其父节点之间的概率关系。条件概率表详细列出了在给定父节点状态下，当前节点取各个可能值的概率。

Bayesian Network

人工神经网络与贝叶斯网络的关系：两者都是有向图模型，其中每个节点的取值或状态仅依赖于其直接前驱节点，即遵循马尔可夫假设。这种结构使得模型能够清晰地表示变量之间的依赖关系。

ANN vs Bayesian Network

有向图模型：一种使用有向图来表示变量之间关系的数学模型。在有向图中，节点代表变量，而有向边则代表变量之间的依赖关系。

Direction Graph

马尔可夫假设：一种简化模型复杂性的假设，它指出一个节点的状态（或取值）仅依赖于其直接前驱节点的状态（或取值），而与更前面的节点状态无关。

Markov Chain

http://mp.weixin.qq.com/s?__biz=MzkzMTEzMzI5Ng==&mid=2247491330&idx=1&sn=efda2a3bf3d450e54a838837c8416b04

架构师带你玩转AI

分享人工智能，让所有人玩转AI

最新文章

好书推荐 - 《大型语言模型实战指南》

大模型实战 - 神经网络语言模型

好书推荐 - 《线性代数与数据学习》

一文彻底搞懂大模型 - 开源数据标注平台Label Studio

一文彻底搞懂RNN - 模型架构（Model Architecture）

大模型面试 - 分词（Tokenization）

一文彻底搞懂大模型 - 神经网络语言模型（NNLM）

大模型面试 - 激活函数（Activation Function）

好书推荐 - 《AIGC大语言模型轻松学：从个人应用到企业实践》

一文彻底搞懂大模型 - 统计语言模型

大模型实战 - 统计语言模型

一文彻底搞懂大模型 - 贝叶斯网络（Bayesian Network）

大模型面试 - 梯度下降（Gradient Descent）

一文彻底搞懂大模型 - 隐马尔可夫模型（HMM）

一文彻底搞懂大模型 - 最大熵模型

一文彻底搞懂大模型 - 人工神经网络与贝叶斯网络

大模型实战 - Agent（智能体）

好书推荐 - 《多模态人工智能：大模型核心原理与关键技术》

一文彻底搞懂大模型 - GPT和LlaMA的模型架构

大模型面试 - 损失函数（Loss Function）

一文彻底搞懂大模型 - 语言模型的发展历程

一文彻底搞懂大模型 - LLM的构建流程

大模型面试 - 反向传播（Back Propagation）

GLM-4-Flash免费：在线微调GLM-4-Flash + Function Calling搭建法律知识库

无法解释LLM的智能涌现，可以从神经元的基本原理入手

一文彻底搞懂大模型 - RAG（检索、增强、生成）

大模型实战 - RAG（检索、增强、生成）

好书推荐 - 《LeeDL Tutorial 深度学习详解》

一文彻底搞懂大模型 - Attention：联合对齐和翻译（Align And Translate）

一文彻底搞懂大模型 - AI四次大发展

大模型面试 - 参数和超参数（Parameters vs Hyperparameters）

一文彻底搞懂大模型 - Fine-tuning三种微调方式

一文彻底搞懂大模型 - LLM四阶段技术

大模型实战 - Function Calling（函数调用）

大模型面试 -深度学习第二部分课程简介

好书推荐 - 《大规模语言模型：从理论到实践》

一文彻底搞懂大模型 - Prompt Engineering（提示工程）

大模型面试 - 大模型的奠基者（Transformer）

一文彻底搞懂大模型 - Agent（智能体）

一文彻底搞懂大模型 - Prompt Engineering、Function Calling、RAG、Fine-tuning

大模型面试 - 残差神经网络（ResNet）

glm-4-long 1M（约150-200万字）上下文：解锁超长文本处理

大模型实战 - Fine-tuning（LoRA + LLaMA-Factory）

一文彻底搞懂Fine-tuning - 训练和推理（Training vs Inference）

大模型面试 - 图神经网络（GNN）

Transformer动画讲解 - 注意力工作原理（Q、K、V）

大模型实战 - Embedding（Word2Vec、Text2Vec）

一文彻底搞懂Fine-tuning - 参数高效微调（Parameter-Efficient Fine-Tuning）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉