准备好走进生物AI时代了吗?8个和大模型相关的名词解释

文摘   科技   2024-03-29 07:52   陕西  

关注我们并在后台回复 “进群”,即可加入农心生信工作室学习交流群,群内不定时分享源代码及示例文件,并在线交流答疑。我们在等你!

由于微信改版,乱序推送,很多朋友反映收不到公众号推文。快跟着图片步骤,将公众号设为星标,不错过每一条精彩内容!


自2022年11月openAI发布ChatGPT之后已有一年多,这一年多以来,各种大模型,如LLama,chatGLM,文心一言等大模型层出不穷,近期马斯克开源的Grok大模型号称史上参数量最多的模型,参数量达到了3140亿。其实大模型早在19年就诞生,只是chatGPT让大模型火出圈了。目前,在生物领域,大模型的应用也非常广泛,作为AI入门知识分享,本文我们简单介绍8个和大模型相关的基本概念。

大模型:全称大语言模型(Large Larguage Model, LLM),“大”是指参数量大,通常在10B以上。这类模型普遍基于transformer架构,transformer由encoder编码器和decoder解码器两部分组成,而如今的大模型的模型架构上有encoder-only,例如BERT及其衍生版本,encoder-decoder,例如T5和GLM等,decoder-only,例如GPT系列的模型。

RLHF:全称为基于人类反馈的强化学习(Reinforcement Learning from Human Feedback ),是一种大模型的训练技术,是在有监督微调之后,利用人类偏好,对大模型进一步训练,使大模型更好地理解和执行人类用户的指令,GPT3及其后续版本(包括chatGPT)、Anthropic公司的Claude、Google等模型都使用了此技术。

预训练(Pre-train):利用大规模数据集通过无监督地方式对模型进行训练,预训练阶段主要让模型做以下任务:掩码语言建模(Masked Language Modeling),下一个句子预测(Next Sentence Prediction)或下一个词预测(Next Token Prediction),经过预训练,模型具备了从文本中提取有用的信息的能力。

有监督微调(Supervised Finetuning, SFT):在预训练后使用少量有监督的数据集对模型进行进一步训练,有监督微调时使用的数据集可以是带有人类给出的问答对,如chatGPT微调,或者是专业领域的数据集,如Darwin大模型的微调。常用的大模型微调技术包括Freeze、P-Tuning和Lora等。

模型量化:模型量化是指以较低的推理精度损失将连续取值(通常为float32或者大量可能的离散值)的浮点型权重近似为有限多个离散值(通常为int8)的过程。通过以更少的位数表示浮点数据,模型量化可以减少模型尺寸,进而减少在推理时的内存消耗。

模型蒸馏(Model Distillation):通过将一个复杂的、大型的模型(称为教师模型)的知识传递给另一个更小、更简单的模型(称为学生模型)中,实现模型压缩。在模型蒸馏中,常使用一个已经经过训练的教师模型,该模型在大型数据集上表现出色。然后,将教师模型的知识传递给一个更小的学生模型,使得学生模型能够以较小的规模进行推理,并保持与教师模型相似的性能。

提示词(Prompt):与大模型交互时的交互文本,用于指导大模型生成预期的回复。

思维链(Chain Of Thought, COT):属于提示学习(prompt learning)的一种,通过在提示词中给给大模型少量(Few-shot)甚至不提供(Zero-shot)样本,帮助大模型思考,帮助其进行推理的技术。

写在最后

随着AI大模型的快速发展,其与生物领域的结合程度也越来越高。未来生物学的发展方向,很可能是推动大模型辅助下的生命工程技术。因此,作为生物领域的相关从业者或研究人员,有必要了解一些基础的AI相关概念,并且利用大模型服务自身研究,相信在不远的未来,人人都可以用AI做生物的时代即将来临。


END

编辑 | Narcissus

供稿 | littlebusy

审核 | 农心生信工作室


农心生信工作室
用生信力量服务中国农业!!!