特运数字化专家带你秒懂数字化|初识大语言模型

企业   2024-10-25 17:35   广东  

秒懂数字化

初识大语言模型

■ ■ ■


想象一下,你有一位超级聪明的朋友,这位朋友博览群书、见多识广堪称“百事通”,不论你问什么,他都能迅速回应balabalababa……

这位朋友为什么这么“能聊能侃”?靠的就是LLM——大语言模型(Large Language Model)!


AI作图


要认识大语言模型,首先必须聊聊AI——人工智能。




01

人工智能(AI)


AI就像这位聪明朋友的大脑,能够快速学习新知识、解决问题、做出决策,并且还能不断进步。它通过算法和数据让机器具备类似人类的智能行为。


AI作图



02

大语言模型(LLM)


LLM则是这位聪明朋友通过大量“啃书”习得的语言技能。大语言模型是基于大量的文本数据训练出来的,这一训练的一大成果是能使模型结合上下文形成连贯的文本——而不是一个回合结束就清空然后重启再战(想想传说的金鱼只有七秒钟记忆)。因此,经过训练,这位超级聪明的朋友熟练掌握了语言技能,就能长时间地跟你对谈,连续地妙语连珠地回答你的问题了。


那么,你一定好奇,大语言模型是怎么训练得到的?这一过程当然有很多工作要做。



AI作图


STEP.01

搜集预处理信息


研究者预先通过收集大量网上文本数据,并对文本数据进行预处理,包括去除噪声、不相关内容以及格式化,使其适合大语言模型的训练。


STEP.02

分词器划分token


AI作图


对大语言模型而言,文本是由一个个token组成,为了让机器能够理解我们写下的文本,token需要用分词器去进行划分。这有点像是把一大块巧克力掰成一小块一小块的,让机器更容易“品尝”和消化。


不同分词器划分token的方法不同——最初,人们尝试按照每个英文单词来进行划分,例如“Learn/about/language/model/ tokenization”,这句话就会被拆分成5个独立的小块。但这样做有个问题:英语词汇量超级庞大!如果用这种分词方法来进行划分,需要维护一张超大的词汇表,这对于机器来说负担太重了,会极大降低运行速度。


因此,聪明的研究者们开始探索更为高效的token划分方法,以目前GPT对token的划分为例,有时会把一个单词进行词根词缀拆分(如tokenization被拆分成token和-ization两个部分),以更好地表征文本。这样一来,在词汇表中不仅包含了常用的词汇,还加入了一些像“-ation”这样的常用词缀,它们就像是拼图游戏中的通用部件,能灵活组合出更多不同的单词形状。通过这种方式,既减少了词汇表的规模,又提高了模型处理文本的能力,使得整个系统变得更加高效且智能。



STEP.03

进行下一token预测的预训练


大语言模型的本质其实是根据上文的信息,预测后面每一个token应该是什么,比如跟模型说“小特你好”,模型根据“小特你好”这句话,然后一个token接着一个token的预测出“您好请问有什么可以帮助您的”(注意,一句完整的话是一个个预测出来的,不是一次性出来的),然后通过原始的文本材料,可以判断出模型的预测内容和真实内容是否有差异,如有差异,将会通过反向传播等技术手段,调整模型的参数,让模型预测的内容更准确。



STEP.04

模型微调

通过预训练,大语言模型相当于掌握了通识能力,但是对于垂直细分领域的专业知识还比较欠缺,需要进行更细范围的模型调整。例如,咱们中远海运特运的LLM,当然会习得更多与远洋海运相关的知识内容,必然更懂航海,更懂航运。(这个以后咱们再细聊!)




在本期秒懂数字化的科普中,我们认识了超级聪明的大语言模型(LLM),它就像一个无所不知的朋友,能够理解、交流,并二次生成各种精彩的内容。是不是觉得特别神奇呢?


但是,你知道吗?为了让这位聪明朋友更好地理解和回应我们的需求,我们还需要一点“魔法”——这就是提示工程(Prompt Engineering)!敬请期待下一期精彩内容吧!



图文丨吴禄彬、朱鸿博、AI

编辑丨瓶子、晴天


中远海运特运
感谢关注中远海运特种运输股份有限公司。
 最新文章