免费送5本新书《大模型制造业的构建与实践》官方配套习题集,参与方式:关注下方公众号并“大模型科技说”公众号 后台回复关注截图,并本文末留言,我们随机抽取5位幸运读者送书,截止时间1月12号晚24点。
大模型作为人工智能领域的革新技术,对很多人尤其是人工智能领域之外的人而言,具有一定的新颖性和神秘感。人们对大模型进行理解与认识的过程中往往存在着一些误区,这阻碍了人人拥抱大模型、有效使用大模型。
所以有必要介绍几种常见的误区,让制造业的同仁对大模型有更清楚的认识。
误区一:大模型是新型搜索引擎
有很多人认为 ChatGPT 这类自然语言生成应用,在回答问题的时候,是先检索资料或者在网络上搜索,从资料或者网络信息中找到答案,最后返回给用户。
这种说法是不准确的。
事实上,大模型和搜索引擎存在着显著区别。
1. 工作原理不同
大模型能够回答问题是基于模型所具有的推理能力,是一种“无中生有”的生成新信息的过程。而这种能力是在大量数据集上进行训练和学习获取的。
搜索引擎是一种通过对互联网上的网页和其他在线资源进行索引来帮助用户查找信息的服务。其工作原理是检索并排序已存在的网络信息,而非生成新信息。
2. “预知未来”的能力不同
面对从未出现过的信息,由于没有网络留痕,搜索引擎无法检索到准确的匹配结果。而大模型却能够对此做出一定的推理和回答,只不过这种回答通常是“胡说八道”,通常将这种现象称为“幻觉”。但是,至少大模型“假装”知道答案。
目前,为了防止大模型出现“幻觉”,会采用价值对齐等方式,避免它“胡说八道”。
3. 大模型有望取代搜索引擎
大模型是一种新的知识表示和调用方式,有取代搜索引擎成为下一代信息检索工具的趋势。在人类知识表示和调用方式的演进历史中,先后经历了口口相传、文字记录、数据库等历史阶段。目前最流行的方式是谷歌、百度等搜索引擎。
鉴于大模型友好的自然语言交互特性和强大的能力,大模型有望成为下一代的信息检索工具。
误区二:大模型就是通用人工智能
以大模型为核心的智能应用表现出了强大的能力,在各自的领域中取得了显著成果。例如:
ChatGPT 在对话聊天方面为用户带来了前所未有的互动体验。 Sora 在文生视频方面极大地拓宽了多媒体创作领域的边界。这些技术进步与创新应用让很多人夸张地惊呼“现实不存在了”“通用人工智能时代已经来临”。
然而,尽管这些基于大模型的应用展现了较高的智能化水平,但它们仍然是在特定任务上才具有高适应性的专用系统,而非真正意义上的“通用人工智能”。
通用人工智能(AGI) 是指具有人类水平的综合智能,能够在任何未预先编程的领域中学习并解决问题,同时具备跨领域的适应性和自我意识。
目前的大模型技术,尽管在特定领域表现卓越并有逐步扩展的趋势,但在解决抽象思维问题、自主思考与创新以及对自身行为的理解等方面,距离真正的通用人工智能还有较大差距。
因此,既不应过分夸大大模型的能力,也要正视大模型朝通用人工智能发展的速度。
误区三:大模型给出的结果和答案就是正确的
由于大模型在很多时候能够提供准确、合理且有深度的答案,很多人乐意使用大模型。久而久之,人们在面对大模型给出的答案时,往往会不假思索地将其当成正确答案,完全信任大模型。
事实上,这种做法是不对的,是一种具有极大风险的行为。
由于大模型的技术特点,并不能简单地认为大模型给出的所有结果和答案都是绝对正确的,主要有如下几个原因。
1. 算法局限性
目前,大模型是基于概率统计实现的。大模型的技术原理是根据已学习的数据分布进行预测,把预测结果的抽样作为答案反馈给用户。因
此,即使模型结构再强大,也无法保证对所有问题都能找到 100% 正确的答案,尤其是在逻辑推理、道德判断等更需要深入思考的问题上,大模型无法给出完全符合人类价值观或真理的回答。
当然,目前大模型的研究正朝着高准确性和价值对齐的方向演进,有望通过其他技术手段突破模型本身的局限性。
2. 数据依赖性
大模型的构建基于其训练时所使用的数据集。如果数据集中存在错误、偏见或不完整之处,模型也会“学偏”,就会在处理相关信息时得出不准确的答案。正如人类的学习过程一样,如果学习的时候采用了不恰当的教材,那么学生的认知和做事的方式就很难保证正确。同理,大模型输出答案的准确性也取决于训练数据的质量。
3. 上下文理解
尽管大模型(如 GPT 系列)在理解上下文方面有所改进,但仍然可能出现对复杂语境理解不准确的情况,导致回答偏离正确方向,尤其是当用户的问题有歧义的时候。
4. 实时更新性
模型一旦训练完成并部署,对于它未学习过的最新知识或实时更新的信息就可能无法掌握。因此,在某些特定领域,特别是快速发展的科学和技术领域,它所提供的信息可能滞后或不准确。
因此,大模型虽然展现了强大的智能,但用户在实际应用中仍需谨慎对待其输出,并结合专业知识、人工审核及不断的优化迭代来确保结果的准确性。
更进一步,我们制造业的从业者,如何将大模型落地到实际的生产与设备运维等场景中呢?这是一个需要更大篇幅来深入探讨的问题。
欢迎关注我的新书《大模型制造业的构建与实践》,从实际的制造场景出发,对构建与落地问题都进行了详细阐述。并且,结合生活和历史小故事,对一些深奥的概念进行类比讲解,适合各类型读者阅读。
目 录
前言
基础篇
第1章 制造业与大模型 2
1.1 制造业的数字化进展 2
1.1.1 企业数字化 3
1.1.2 智能制造 8
1.2 大模型的基本知识 11
1.2.1 什么是大模型 11
1.2.2 大模型的基本能力 12
1.2.3 对大模型的常见误区 17
1.3 制造业为什么需要大模型 19
1.3.1 大模型赋能制造业 19
1.3.2 制造业是大模型的主战场 20
1.3.3 大模型在制造业中的应用 22
1.3.4 制造业大模型 24
1.4 小结 26
小故事 27
第2章 大模型基础 28
2.1 人工智能的发展历程 28
2.1.1 人工智能发展的三起三落 29
2.1.2 人工智能技术的流派之争 34
2.2 大模型简介 36
2.2.1 模型的概念 37
2.2.2 模型的分类 37
2.2.3 大模型的发展 39
2.3 大模型架构原理 41
2.3.1 Transformer架构的背景 41
2.3.2 Transformer架构的原理 42
2.3.3 Transformer架构模型的特点与发展 51
2.4 小结 53
小故事 54
第3章 大模型构建路径 55
3.1 大模型构建的基本方法 55
3.1.1 基本路径 55
3.1.2 资源准备 59
3.2 数据处理 62
3.2.1 低质过滤 62
3.2.2 冗余去除 63
3.2.3 隐私消除 65
3.3 分词 65
3.3.1 词级分词 66
3.3.2 字母级分词 67
3.3.3 子词级分词 67
3.3.4 中文分词 71
3.3.5 常用的分词器 72
3.4 词嵌入 73
3.4.1 独热编码 73
3.4.2 Word2Vec 75
3.4.3 常用的词嵌入方法 77
3.5 模型训练 79
3.5.1 模型构建 79
3.5.2 模型训练步骤 80
3.6 小结 83
小故事 84
第4章 大模型价值对齐 85
4.1 预训练模型的局限性 85
4.1.1 可控性 86
4.1.2 鲁棒性 88
4.1.3 安全性 89
4.1.4 大模型幻觉 90
4.2 指令微调 91
4.2.1 有监督微调 92
4.2.2 奖励模型 94
4.2.3 基于人类反馈的强化学习 95
4.2.4 指令微调总结 96
4.3 混合专家模型 96
4.3.1 MoE的概念 97
4.3.2 MoE的基本原理 98
4.3.3 MoE的实现方式 101
4.3.4 MoE总结 104
4.4 小结 106
小故事 107
第5章 多模态大模型 109
5.1 多模态大模型简介 109
5.1.1 多模态大模型的概念 109
5.1.2 多模态大模型的发展历程 112
5.1.3 多模态大模型的主要任务 113
5.2 多模态基本技术 115
5.2.1 多模态编码 115
5.2.2 多模态融合 117
5.2.3 对比学习 118
5.3 AIGC技术 119
5.3.1 生成对抗网络 119
5.3.2 扩散模型 121
5.4 AIGC应用 127
5.4.1 常用的多模态大模型 128
5.4.2 文生图 128
5.4.3 文生视频 130
5.5 小结 134
小故事 136
第6章 提示词工程 137
6.1 提示词简介 137
6.1.1 提示词的概念 137
6.1.2 提示词的必要性 140
6.1.3 提示词的类别 141
6.2 提示词工程技术 142
6.2.1 少样本提示 142
6.2.2 零样本提示 143
6.2.3 提示词通用技巧 145
6.3 思维链系列技术 152
6.3.1 思维链 153
6.3.2 思维树 155
6.3.3 思维图 157
6.4 对抗提示 157
6.4.1 提示词攻击 158
6.4.2 防御策略 159
6.5 小结 160
小故事 162
应用篇
第7章 制造业企业应用大模型的方法 164
7.1 企业应用大模型的8种情形 164
7.1.1 企业资源现状 164
7.1.2 大模型应用的8种情形 167
7.2 垂直制造领域大模型的构建方法 169
7.2.1 全量微调 170
7.2.2 局部微调 170
7.2.3 适配式微调 171
7.2.4 前缀式微调 173
7.2.5 外挂式微调 175
7.2.6 混合式微调 177
7.2.7 微调技术对比 178
7.3 大模型检索增强生成 179
7.3.1 RAG的概念 181
7.3.2 向量数据库的构建 182
7.3.3 相似检索 185
7.3.4 智能生成 186
7.3.5 RAG效果评估 188
7.3.6 RAG应用场景 190
7.4 小结 190
小故事 193
第8章 基于大模型的AI Agent 195
8.1 AI Agent简介 195
8.1.1 AI Agent技术简史 195
8.1.2 对AI Agent的不同理解 197
8.2 AI Agent原理 199
8.2.1 基本框架 200
8.2.2 感知模块 201
8.2.3 大脑模块 204
8.2.4 行动模块 206
8.2.5 大模型与AI Agent的关系 207
8.3 AI Agent应用 208
8.3.1 流行的AI Agent 208
8.3.2 AI Agent与RPA的关系 211
8.4 LangChain:AI Agent高效实战工具 213
8.4.1 LangChain工具简介 214
8.4.2 提示词模板 216
8.4.3 链模块 218
8.4.4 代理模块 224
8.5 小结 225
小故事 227
第9章 大模型部署与压缩 228
9.1 大模型部署 228
9.1.1 云端部署 228
9.1.2 边缘部署 230
9.2 大模型压缩 231
9.2.1 模型压缩简介 232
9.2.2 蒸馏 234
9.2.3 量化 236
9.2.4 剪枝 238
9.2.5 参数共享 239
9.3 软硬件适配 241
9.4 小结 242
小故事 243
第10章 工业制造大模型的应用实践 244
10.1 工业制造大模型简介 244
10.1.1 工业制造大模型的概念 244
10.1.2 工业制造大模型的种类 246
10.1.3 工业制造大模型的构建方式 247
10.2 大模型在生产制造环节的应用 248
10.2.1 智能排产 249
10.2.2 生产工艺优化 251
10.2.3 产品质检 252
10.2.4 工业机器人 255
10.3 小结 257
小故事 258
第11章 设备运维大模型的应用实践 259
11.1 设备运维大模型的现状 259
11.1.1 设备运维行业的特点 259
11.1.2 设备运维大模型的行业案例 262
11.2 电梯运维行业 264
11.2.1 电梯运维简介 265
11.2.2 电梯运维行业的挑战 267
11.3 大模型在电梯运维行业的应用 268
11.3.1 人才培养与培训 269
11.3.2 预测性维护 271
11.3.3 运维现场规范管理 274
11.3.4 智能客服与知识问答 276
11.3.5 运维档案管理 278
11.4 小结 280
小故事 282
第12章 总结与展望 283
12.1 大模型技术大观园 283
12.1.1 技术理论流派 284
12.1.2 思想与技术 286
12.2 大模型应用万花筒 289
12.2.1 赋能千行百业 289
12.2.2 制造业应用 292
12.3 大模型展望 292
12.3.1 正确认识大模型 293
12.3.2 Transformer是终极架构吗 294
12.3.3 模型越大越好吗 295
12.3.4 通用还是垂直 297
12.3.5 大模型与机器人 299
12.3.6 伦理与道德 300
12.4 小结 302