准备好走进生物AI时代了吗？8个和大模型相关的名词解释

文摘科技 2024-03-29 07:52 陕西

关注我们并在后台回复 “进群”，即可加入农心生信工作室学习交流群，群内不定时分享源代码及示例文件，并在线交流答疑。我们在农心生信，等你！

由于微信改版，乱序推送，很多朋友反映收不到公众号推文。快跟着图片步骤，将农心生信公众号设为星标，不错过每一条精彩内容！！

自2022年11月openAI发布ChatGPT之后已有一年多，这一年多以来，各种大模型，如LLama，chatGLM，文心一言等大模型层出不穷，近期马斯克开源的Grok大模型号称史上参数量最多的模型，参数量达到了3140亿。其实大模型早在19年就诞生，只是chatGPT让大模型火出圈了。目前，在生物领域，大模型的应用也非常广泛，作为AI入门知识分享，本文我们简单介绍8个和大模型相关的基本概念。

大模型：全称大语言模型（Large Larguage Model, LLM），“大”是指参数量大，通常在10B以上。这类模型普遍基于transformer架构，transformer由encoder编码器和decoder解码器两部分组成，而如今的大模型的模型架构上有encoder-only，例如BERT及其衍生版本，encoder-decoder，例如T5和GLM等，decoder-only，例如GPT系列的模型。

RLHF：全称为基于人类反馈的强化学习（Reinforcement Learning from Human Feedback ），是一种大模型的训练技术，是在有监督微调之后，利用人类偏好，对大模型进一步训练，使大模型更好地理解和执行人类用户的指令，GPT3及其后续版本（包括chatGPT）、Anthropic公司的Claude、Google等模型都使用了此技术。

预训练（Pre-train）：利用大规模数据集通过无监督地方式对模型进行训练，预训练阶段主要让模型做以下任务：掩码语言建模（Masked Language Modeling），下一个句子预测（Next Sentence Prediction）或下一个词预测（Next Token Prediction），经过预训练，模型具备了从文本中提取有用的信息的能力。

有监督微调（Supervised Finetuning, SFT）：在预训练后使用少量有监督的数据集对模型进行进一步训练，有监督微调时使用的数据集可以是带有人类给出的问答对，如chatGPT微调，或者是专业领域的数据集，如Darwin大模型的微调。常用的大模型微调技术包括Freeze、P-Tuning和Lora等。

模型量化：模型量化是指以较低的推理精度损失将连续取值（通常为float32或者大量可能的离散值）的浮点型权重近似为有限多个离散值（通常为int8）的过程。通过以更少的位数表示浮点数据，模型量化可以减少模型尺寸，进而减少在推理时的内存消耗。

模型蒸馏（Model Distillation）：通过将一个复杂的、大型的模型（称为教师模型）的知识传递给另一个更小、更简单的模型（称为学生模型）中，实现模型压缩。在模型蒸馏中，常使用一个已经经过训练的教师模型，该模型在大型数据集上表现出色。然后，将教师模型的知识传递给一个更小的学生模型，使得学生模型能够以较小的规模进行推理，并保持与教师模型相似的性能。

提示词（Prompt）：与大模型交互时的交互文本，用于指导大模型生成预期的回复。

思维链（Chain Of Thought, COT）：属于提示学习（prompt learning）的一种，通过在提示词中给给大模型少量（Few-shot）甚至不提供（Zero-shot）样本，帮助大模型思考，帮助其进行推理的技术。

写在最后

随着AI大模型的快速发展，其与生物领域的结合程度也越来越高。未来生物学的发展方向，很可能是推动大模型辅助下的生命工程技术。因此，作为生物领域的相关从业者或研究人员，有必要了解一些基础的AI相关概念，并且利用大模型服务自身研究，相信在不远的未来，人人都可以用AI做生物的时代即将来临。

END

编辑 | Narcissus

供稿 | littlebusy

审核 | 农心生信工作室

http://mp.weixin.qq.com/s?__biz=Mzk0MzM5NzQ3Mw==&mid=2247487900&idx=1&sn=4b159d742f76074874b500f041a1cb10

农心生信工作室

用生信力量服务中国农业！！！

最新文章

博士生版MBTI：快来测一测你会不会延毕吧

一键解锁！用R脚本轻松统计SUPPA2识别的可变剪接（AS）事件结果

一题多解：AWK、R、Python大比拼，如何用不同的编程语言轻松合并行列名相同的多个文件

评估基因组组装质量？不止是BUSCO、Merqury和LAI，试试CRAQ吧

农心生信两周年：彷徨的一年，不变的是你们的支持（文末有抽奖福利）

进化树可视化？你一直做错，知道吗？

蝙蝠肠道微生物的变奏曲：季节性饮食调整下的能量与营养新策略

从组学小错误到科学大发现：真菌中A-to-I mRNA编辑的发现与探索

一篇掌握！蛋白质结构预测、分析与可视化的完全指南，收藏就是赚到！

pdb2FASTA | 一个批量从pdb文件中提取氨基酸序列信息的脚本（附：TBtools插件版本）

软件教程 | CD-HIT：超快超好用的核酸/蛋白序列聚类软件

千呼万唤始出来！AlphaFold3会带来生命科学的变革吗？(附：AlphaFold Server使用攻略)

博士毕业答辩那天，老师竟对我说……

AutoDock分子对接（4）--对接过程（下）及结果分析

从ChatGPT到Sora

还在用BLAST序列比对检索数据库？快试试基于蛋白结构比对的检索工具Foldseek

准备好走进生物AI时代了吗？8个和大模型相关的名词解释

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉