一文搞懂AI大模型的7个核心概念

文摘   2024-12-28 19:01   浙江  
欢迎点击下方👇🏻关注记得星标哟~
文末有惊喜~

大家好,我是汤师爷~

随着AI技术的飞速发展,AI大模型已成为推动技术创新和产业变革的核心引擎。

作为AIGC技术的基础支撑,大模型不仅在自然语言处理领域展现出惊人的能力,还通过多模态融合开辟了更广阔的应用空间。

接下来,我们将深入探讨AI大模型的核心概念。

大语言模型(LLM)

大语言模型(LLM)是一种专注于处理语言数据的人工智能模型,通过分析和学习海量文本数据来掌握语言的语法、语义和上下文关系,从而实现自然语言的理解与生成。

大语言模型的核心任务是实现与人类的语言交流,包括书面语言和口语表达。

为什么叫"大语言模型"?这一名称主要来源两个关键特征:规模庞大和语言处理能力。

规模庞大主要体现在模型参数数量、训练数据规模上。现代大语言模型通常拥有数十亿到上千亿个参数,这让其能够准确捕捉复杂的语言模式和细微的语义差异。

语言处理能力则表现在模型能够理解上下文、生成连贯文本、回答复杂问题,并进行流畅的多轮对话。

参数

参数是衡量模型大小的主要指标。通常情况下,参数越多,模型能够学习和表达的知识就越丰富。

大模型的参数可以类比成无数个"开关"。在训练过程中,这些开关会不断调节,使模型能够从海量文本中学习语言规律。

这就像学习弹钢琴,初学者需要反复调整手指力度、按键位置和节奏,直到找到最佳演奏方式。对大模型而言,这些调整项就相当于模型中的"参数"。

当模型遇到每个训练样本时,它会尝试预测结果。如果预测不准确,就会微调这些参数,使其更接近正确答案。通过成千上万次的反复训练,这些参数逐渐积累语言如何排列组合、上下文如何关联的知识。

在大模型领域,我们通常用"B"作为计量单位。"B"代表十亿参数,例如"7B"模型意味着它包含约70亿个可训练的参数。

还有更小或更大的单位:如"K"(千)、"M"(百万)或"T"(万亿)。小型模型可能只有几M参数,而大型模型则可能达到数百B甚至上T。

大模型厂商在展示时常用"模型名称 + 版本号 + 参数量"的格式。比如在阿里云百炼或欧拉玛(Ollama)这样的平台上,你能看到不同规模的模型,其中一些专用于特定领域的定制模型参数量可能只有几百万(M)或几千(K)。

这些参数较少的模型虽然规模小,但在特定领域仍能发挥出色的性能。因此,选择模型时应该根据实际需求,而不是盲目追求更大的参数量。

token

token是大模型处理信息的最基础单位。它可以是一个字、一个完整的词、图像中的像素块,或是音频中的一帧片段。具体形式取决于模型的输入类型和分词或分块方式。

在中文场景下,常见的分词策略会将句子分成最小的语义片段。比如"你好!"会被拆分成三个token:"你"、"好"、"!"。

再如"我想吃拉面。"会被拆分为"我"、"想"、"吃"、"拉面"、"。"。这里保留"拉面"作为一个完整token,是因为拆分后会失去原有的语义。

token的拆分通常依赖分词工具或模型内置的分词功能,如THULAC、HanLP、LTP等。这些工具能够智能地将完整句子拆解成若干token。

对普通用户来说,无需直接操作这些分词工具。大多数大模型已内置分词方案,只要输入原始文本,模型就会自动完成token化,再进行后续推理。

上下文

上下文指对话或文本中提供的相关背景信息。大模型处理输入时会参考之前的内容来理解新问题。

这类似人与人之间的对话。假设有人说"我正在开发一个新功能,你有什么问题吗?",你能理解这是在讨论产品需求或技术问题。

但如果一个不了解情况的人突然被问"你有什么问题吗?",他就无法给出恰当的回答,因为缺少必要的背景信息。

大模型的问答机制也是如此。当你先问"这个文档包含哪些部分?",然后问"第二部分的核心观点是什么?"时,模型会结合前一个问题和答案,给出连贯且合理的回应。但若缺少这些前置信息,模型就无法确定具体是哪份"文档",也就无法描述其"核心观点"。

实际应用中,上下文长度有限制。当对话内容过多导致上下文积累太长时,模型可能会遗忘早期内容或不得不丢弃之前的对话。目前主流大模型都会在产品文档中说明其支持的最大上下文长度,一般在4K到32K token之间,某些专门用于长文档分析的模型甚至支持更长的上下文范围。

上下文让大模型能在多轮对话中持续理解用户意图。但要注意避免引入过多无关信息,以免影响模型对核心问题的把握。

多模态

多模态是指模型能够处理多种不同类型的数据,比如文字、图片、文档、语音、视频等。与之相对的单模态模型只能处理其中一种类型。

例如,纯文本模型只能理解文字内容,却无法理解图像信息。如果你把一张图片丢给它,它就无从下手了。

现在不少厂商都在推动多模态模型的发展。比如某些大模型既能回答文本问题,又能接受图片输入,然后结合图片和文本进行分析,告诉你图片中的物体是什么或文档中的结构如何。

有些还能处理音频,识别语音中的说话人情感、语速等特征。这些能力都归功于“多模态预训练”思想,让模型在不同模态中学习并映射更丰富的知识。

OpenAI早前推出的GPT-3属于单模态,主要处理文本。后来的GPT-4已经加入了对图像等多模态数据的理解。

阿里云、百度、腾讯等国内厂商也在大力推进多模态模型的研究与应用。一些通用大模型平台,还会提供在线上传文档或图片的功能,用来做检索或问答。这类多模态能力可以应用在客服机器人、智能审图、视频分析等许多领域。

温度

温度(temperature)是大模型生成回答时,控制其“随机性”或“发散度”的一个关键参数。它通常用0到1之间的小数或类似的范围数值表示。

当温度值高时,模型更愿意尝试不同的词汇组合,并产生更具创造性、跳脱的回答。当温度值低时,模型会倾向更保守、更一致的回答,减少出现天马行空答案的可能。

举个简单的例子:当你把温度调高,并让模型写一首诗,它可能会采用更独特的语句、夸张的比喻。但如果你希望模型回答得严谨有序,不要离题太远,就可以将温度调低,让它更像一个“正经”的程序一样回答问题。

不同场景下对温度的需求不一样。如果你在做一个创意写作辅助,就可能希望温度大一些,多尝试不同句式。如果你在写严肃报告,就希望温度小一些,以保证逻辑紧密和语言准确。

在许多大模型调用接口时,你都可以自由配置这个温度。一般情况下,默认的温度值就能满足很多应用需求。

如果你发现生成内容不断重复,毫无新意,可以尝试提高温度。如果你发现模型经常“跑题”或“脑洞太大”,则适当降低温度。温度并不是越大越好,也不是越小越好,要根据具体使用场景做调整。

词向量

向量(vector)在数学领域是一个数字列表,例如一维向量表示为(x),二维向量表示为(x, y),三维向量表示为(x, y, z),以此类推。

大模型在处理文本时,会将每个token或词转换成高维向量,这个过程称为"词向量"或"embedding"。

为什么需要词向量?因为机器无法直接理解"苹果"或"电脑"这样的文字符号,但能轻松处理数字。通过将词语映射到数值向量空间,模型就能用"距离"和"方向"来表示词语之间的关系。向量距离越近,表示两个词的语义越相似;距离越远,则语义差异越大。

对大语言模型来说,词向量是理解词语含义和上下文关联的基础。模型通过词向量学习词汇间的内在关系,比如"出租车"和"司机"在语义上紧密相连,"企业"和"员工"也经常关联在一起。

当两个向量非常相似时,说明这些词在语义上有共同之处。这使模型能在回答问题时推断出问题关联的内容。

在海量数据中,模型反复学习大量文本内容,将用法相似的词放在向量空间的相近位置。最终生成的向量可用于文本相似度计算、语义检索、聚类分析等多种应用。这也是大模型能够"理解"文字上下文和深层逻辑的关键原因之一。

对了,我整理了一份Cursor官方指导手册(中文版)该⽂档写得相当清晰简洁,是新⼿⼊门开始学习Cursor的最佳选择。需要的同学,加我微信,备注【cursor】,免费获取!

··············  END  ··············

你好,我是汤师爷,南京大学硕士,曾就职于华为、阿里,创业公司CTO,现大厂资深架构师,Qcon/IAS/A2M大会特邀讲师。日常分享AI工具,架构干货,高质量资料,欢迎围观。



欢迎把文章分享至朋友圈
点赞、在看是对我最大的支持
↘↘↘

架构师汤师爷
南京大学硕士,曾就职于华为、阿里,创业公司CTO,现大厂资深架构师,Qcon/IAS/A2M大会特邀讲师。日常分享AI编程、系统架构、AI工具。
 最新文章