首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

一文搞懂AI大模型的7个核心概念

文摘 2024-12-28 19:01 浙江

欢迎点击下方👇🏻关注我，记得星标哟~

文末有惊喜~

大家好，我是汤师爷~

随着AI技术的飞速发展，AI大模型已成为推动技术创新和产业变革的核心引擎。

作为AIGC技术的基础支撑，大模型不仅在自然语言处理领域展现出惊人的能力，还通过多模态融合开辟了更广阔的应用空间。

接下来，我们将深入探讨AI大模型的核心概念。

大语言模型（LLM）

大语言模型（LLM）是一种专注于处理语言数据的人工智能模型，通过分析和学习海量文本数据来掌握语言的语法、语义和上下文关系，从而实现自然语言的理解与生成。

大语言模型的核心任务是实现与人类的语言交流，包括书面语言和口语表达。

为什么叫"大语言模型"？这一名称主要来源两个关键特征：规模庞大和语言处理能力。

规模庞大主要体现在模型参数数量、训练数据规模上。现代大语言模型通常拥有数十亿到上千亿个参数，这让其能够准确捕捉复杂的语言模式和细微的语义差异。

语言处理能力则表现在模型能够理解上下文、生成连贯文本、回答复杂问题，并进行流畅的多轮对话。

参数

参数是衡量模型大小的主要指标。通常情况下，参数越多，模型能够学习和表达的知识就越丰富。

大模型的参数可以类比成无数个"开关"。在训练过程中，这些开关会不断调节，使模型能够从海量文本中学习语言规律。

这就像学习弹钢琴，初学者需要反复调整手指力度、按键位置和节奏，直到找到最佳演奏方式。对大模型而言，这些调整项就相当于模型中的"参数"。

当模型遇到每个训练样本时，它会尝试预测结果。如果预测不准确，就会微调这些参数，使其更接近正确答案。通过成千上万次的反复训练，这些参数逐渐积累语言如何排列组合、上下文如何关联的知识。

在大模型领域，我们通常用"B"作为计量单位。"B"代表十亿参数，例如"7B"模型意味着它包含约70亿个可训练的参数。

还有更小或更大的单位：如"K"（千）、"M"（百万）或"T"（万亿）。小型模型可能只有几M参数，而大型模型则可能达到数百B甚至上T。

大模型厂商在展示时常用"模型名称 + 版本号 + 参数量"的格式。比如在阿里云百炼或欧拉玛（Ollama）这样的平台上，你能看到不同规模的模型，其中一些专用于特定领域的定制模型参数量可能只有几百万（M）或几千（K）。

这些参数较少的模型虽然规模小，但在特定领域仍能发挥出色的性能。因此，选择模型时应该根据实际需求，而不是盲目追求更大的参数量。

token

token是大模型处理信息的最基础单位。它可以是一个字、一个完整的词、图像中的像素块，或是音频中的一帧片段。具体形式取决于模型的输入类型和分词或分块方式。

在中文场景下，常见的分词策略会将句子分成最小的语义片段。比如"你好！"会被拆分成三个token："你"、"好"、"！"。

再如"我想吃拉面。"会被拆分为"我"、"想"、"吃"、"拉面"、"。"。这里保留"拉面"作为一个完整token，是因为拆分后会失去原有的语义。

token的拆分通常依赖分词工具或模型内置的分词功能，如THULAC、HanLP、LTP等。这些工具能够智能地将完整句子拆解成若干token。

对普通用户来说，无需直接操作这些分词工具。大多数大模型已内置分词方案，只要输入原始文本，模型就会自动完成token化，再进行后续推理。

上下文

上下文指对话或文本中提供的相关背景信息。大模型处理输入时会参考之前的内容来理解新问题。

这类似人与人之间的对话。假设有人说"我正在开发一个新功能，你有什么问题吗？"，你能理解这是在讨论产品需求或技术问题。

但如果一个不了解情况的人突然被问"你有什么问题吗？"，他就无法给出恰当的回答，因为缺少必要的背景信息。

大模型的问答机制也是如此。当你先问"这个文档包含哪些部分？"，然后问"第二部分的核心观点是什么？"时，模型会结合前一个问题和答案，给出连贯且合理的回应。但若缺少这些前置信息，模型就无法确定具体是哪份"文档"，也就无法描述其"核心观点"。

实际应用中，上下文长度有限制。当对话内容过多导致上下文积累太长时，模型可能会遗忘早期内容或不得不丢弃之前的对话。目前主流大模型都会在产品文档中说明其支持的最大上下文长度，一般在4K到32K token之间，某些专门用于长文档分析的模型甚至支持更长的上下文范围。

上下文让大模型能在多轮对话中持续理解用户意图。但要注意避免引入过多无关信息，以免影响模型对核心问题的把握。

多模态

多模态是指模型能够处理多种不同类型的数据，比如文字、图片、文档、语音、视频等。与之相对的单模态模型只能处理其中一种类型。

例如，纯文本模型只能理解文字内容，却无法理解图像信息。如果你把一张图片丢给它，它就无从下手了。

现在不少厂商都在推动多模态模型的发展。比如某些大模型既能回答文本问题，又能接受图片输入，然后结合图片和文本进行分析，告诉你图片中的物体是什么或文档中的结构如何。

有些还能处理音频，识别语音中的说话人情感、语速等特征。这些能力都归功于“多模态预训练”思想，让模型在不同模态中学习并映射更丰富的知识。

OpenAI早前推出的GPT-3属于单模态，主要处理文本。后来的GPT-4已经加入了对图像等多模态数据的理解。

阿里云、百度、腾讯等国内厂商也在大力推进多模态模型的研究与应用。一些通用大模型平台，还会提供在线上传文档或图片的功能，用来做检索或问答。这类多模态能力可以应用在客服机器人、智能审图、视频分析等许多领域。

温度

温度（temperature）是大模型生成回答时，控制其“随机性”或“发散度”的一个关键参数。它通常用0到1之间的小数或类似的范围数值表示。

当温度值高时，模型更愿意尝试不同的词汇组合，并产生更具创造性、跳脱的回答。当温度值低时，模型会倾向更保守、更一致的回答，减少出现天马行空答案的可能。

举个简单的例子：当你把温度调高，并让模型写一首诗，它可能会采用更独特的语句、夸张的比喻。但如果你希望模型回答得严谨有序，不要离题太远，就可以将温度调低，让它更像一个“正经”的程序一样回答问题。

不同场景下对温度的需求不一样。如果你在做一个创意写作辅助，就可能希望温度大一些，多尝试不同句式。如果你在写严肃报告，就希望温度小一些，以保证逻辑紧密和语言准确。

在许多大模型调用接口时，你都可以自由配置这个温度。一般情况下，默认的温度值就能满足很多应用需求。

如果你发现生成内容不断重复，毫无新意，可以尝试提高温度。如果你发现模型经常“跑题”或“脑洞太大”，则适当降低温度。温度并不是越大越好，也不是越小越好，要根据具体使用场景做调整。

词向量

向量（vector）在数学领域是一个数字列表，例如一维向量表示为(x)，二维向量表示为(x, y)，三维向量表示为(x, y, z)，以此类推。

大模型在处理文本时，会将每个token或词转换成高维向量，这个过程称为"词向量"或"embedding"。

为什么需要词向量？因为机器无法直接理解"苹果"或"电脑"这样的文字符号，但能轻松处理数字。通过将词语映射到数值向量空间，模型就能用"距离"和"方向"来表示词语之间的关系。向量距离越近，表示两个词的语义越相似；距离越远，则语义差异越大。

对大语言模型来说，词向量是理解词语含义和上下文关联的基础。模型通过词向量学习词汇间的内在关系，比如"出租车"和"司机"在语义上紧密相连，"企业"和"员工"也经常关联在一起。

当两个向量非常相似时，说明这些词在语义上有共同之处。这使模型能在回答问题时推断出问题关联的内容。

在海量数据中，模型反复学习大量文本内容，将用法相似的词放在向量空间的相近位置。最终生成的向量可用于文本相似度计算、语义检索、聚类分析等多种应用。这也是大模型能够"理解"文字上下文和深层逻辑的关键原因之一。

对了，我整理了一份Cursor官方指导手册（中文版）。该⽂档写得相当清晰简洁，是新⼿⼊门开始学习Cursor的最佳选择。需要的同学，加我微信，备注【cursor】，免费获取！

·············· END ··············

你好，我是汤师爷，南京大学硕士，曾就职于华为、阿里，创业公司CTO，现大厂资深架构师，Qcon/IAS/A2M大会特邀讲师。日常分享AI工具，架构干货，高质量资料，欢迎围观。

欢迎把文章分享至朋友圈

点赞、在看是对我最大的支持

↘↘↘

架构师汤师爷

南京大学硕士，曾就职于华为、阿里，创业公司CTO，现大厂资深架构师，Qcon/IAS/A2M大会特邀讲师。日常分享AI编程、系统架构、AI工具。

最新文章

国产之光DeepSeek杀疯了

春节假期卷起来！

月薪超6万！真心建议架构师冲一冲这个新兴领域，人才缺口极大！

SaaS系统定位分析，大部分人都做错了！

30岁后，一定要有体系化思维！

真的很厉害，强烈推荐这位大佬的 Redis、Tomcat、Kafka 系列

总监思维：公司不在乎你干了多少活

形势比想象的还要严峻

AI编程：这套提示词框架，让你效率飙升10倍！

架构设计黄金法则：区分变与不变，建立边界和结构的必看技巧！

如何画好一张架构图，如何分L0～L4级别？

一文搞懂企业架构与DDD的融合

国产之光DeepSeek，大模型里的拼夕夕

怎么感觉就业市场崩溃了。。。

一文搞懂SaaS架构建设流程：业务战略设计、架构蓝图设计、领域系统架构设计、架构治理与实施

万字图文：SaaS业务架构、价值流、业务能力、业务流程、业务对象、组织架构

国企央企员工，别指望能安稳干到退休了

一文搞懂架构设计的衡量标准：功能性、可用性、性能、可扩展性、安全性、协作效率、复杂度、成本效益

一文搞懂L1-L3业务流程体系分析，价值流、端到端流程、职能流程

Cursor AI编程不靠谱？

2025大厂最新薪资汇总

2025年，普通人积累第一桶金的3大技能

SaaS业务架构：从价值主张、价值流到价值流阶段分析

Windsurf 和 Cursor ，为什么我选择Cursor

一文看懂什么是架构?

大白话！解析大模型原理！

京东年终奖方案出了

吊打面试官！数据架构的核心概念

一文搞懂AI大模型的7个核心概念

国外第一批因AI失业的人出现了

新版本 Cursor 把其他 AI 编程工具按在地上摩擦！

Bolt.new vs Cursor ，怎么选？

o3 发布了，砸碎了码农的饭碗

促销系统：促销活动、优惠券、优惠规则概念模型设计

详解：促销系统整体规划

促销系统：促销业务详解

张一鸣，成为中国首富

一文搞懂业务架构的5个核心概念

我抛弃了 IntelliJ IDEA，拥抱这个爆火的 IDE！

履约系统：应用层、领域层、集成关系设计

履约系统：发货单、配送单模型设计详解

怎么感觉IT一下子就业崩溃了

详解：订单履约系统规划

AI编程：用 Cursor 写出第一个程序

交易系统：应用分层架构设计

京东不同职级薪资待遇

交易系统：退款单模型设计详解

交易系统：订单模型设计详解

交易系统：线上交易系统流程详解

试了下Cursor，感觉程序员工种危险了

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉