最近老有羊驼混进组会(一)科研与大模型黑话速成
本文技术支持by油漆区飞猪:最近的组会,不知咋地流行起了羊驼,学名:Lama glama,西班牙语/英语:Llama,俗称草泥马,属偶蹄目骆驼科,不好意思我们今天要说的并不是这个可爱的蠢萌动物。要说显示自己跟上了科技的潮流,谈天说地都离不开大模型,突击花钱离不开买显卡。从医学到基础研究,大模型都在扮演着越来越重要的角色。这一系列文章将带你深入了解大模型和科研(发paper)的奇妙结合。第一篇让我们一起先了解一波大模型术语,“对齐颗粒度”之后做到在组会上黑话连篇,让老板对你侧目!欲知这关羊驼什么事儿,请继续往下看。
背景
记得早期的机器学习模型吗?从SVM到决策树,再到CNN和NLP,它们像是科技界的各路英雄,各有所长,陪我们发了不少高质量文章(水漫金山)。上面这些缩写都不知道是啥,也没事,忽略他们继续往下看。
然而,自从ChatGPT横空出世以后,大家仿佛都开启了“大模型模式”。突然间,从学术会议到咖啡店,人们讨论的都是亿级参数的模型。大模型顾名思义,就是参数大得惊人的模型(废话),从此以后卷的不再是卷积,而是卷大模型参数。多大算大呢,其实也没有明确的定义,但现在最小的可以在手机跑的大模型也有3.5个billion参数(parameters)。虽然现在有的人把深度学习的模型只要参数够多都算成大模型(钻自己语言空子?),但传统的大模型就是指的大语言模型,Large Language Model, LLM。这个llm和llama(羊驼🦙)是不是长得很像,加上在开源大模型界领先的Meta把自己的开源模型命名成了llama,羊驼也就顺理成章的变成了大模型的吉祥物。
技术进展
就像CNN(Convolutional Neural Network,卷积神经网络)是擅长图像视频的,大模型更像是NLP(Natural Language Process,自然语言处理)的迭代版,也是主要处理文字为主。这波突破的关键是当时来自谷歌的几位大佬的一篇文章,Attention is all you need。这是学术界真正的爆款文章,8年不到已经被引用了12万次。文章提出了Transformer这一革命性的技术。他们把它发展成了一种全新的系统:这个系统是如此的强大,以至于它的输出仿佛来源自非人类的智能。这种被称为 Transformer 的体系结构正是 ChatGPT 等引人注目的 AI 产品背后的核心技术。论文第二作者 Shazeer 如今调侃道,如果他当初知道这篇论文会那么出名的话,他 “可能会对作者排序更加介意”,兄弟姐妹们引以为戒哈🤔。大模型的机制以后可以请飞猪慢慢讲。但是我们不是黑话入门吗,不负责任的简单说就是,大模型从语料训练后,根据上文的token,预测下文的token。Token也是关键术语,中文是令牌,弯弯好像翻译成词元,但大家都叫token。一个单词大概是一个token,一个中文字大概是两个token。比如写一句,飞猪很「」,大模型就会根据语料训练和“飞猪很”这几个token预测下一个token应该是“帅”,这句话就填充成,飞猪很帅。你要让他“多写点”,他就会同样继续跟据训练好的模型参数,和上文“飞猪很”token,和“多写点”这个token,预测下文token应该是“帅,而且科研很厉害”。不同的模型可以一次处理token数是有上限的。也是评价你模型厉害不厉害的一个关键点。简单点说,大模型的原理类似”请根据上文内容,猜猜下文内容“。
模型分类
目前的大模型基本都是以奇怪的英文字符命名的,你要是只知道OpenAI的ChatGPT,只能算幼儿园水平。自从2020年OpenAI提出规模定律(Scaling Laws),即模型的性能随着参数量、数据量、训练时长的指数级增加而呈现线性提升,并且该提升对架构和优化超参数的依赖性非常弱。也就是说,通过大规模的计算资源和数据投入,即使架构没有特别的创新,也可以显著提升模型的性能。简单说就是,架构都是浮云,大力(💰)出奇迹。
*架构:指的是模型的结构或配置,包括其层数、每层的神经元数量、激活函数的类型、以及层与层之间的连接方式等。具体来说,在深度学习中,架构主要指神经网络的设计。
在这个大模型星光璀璨的世界里,每家公司都有自己的明星模型。让我们来看看这些模型都出自哪里吧:
OpenAI:这家公司可以说是大模型界的好莱坞,出品了一系列明星级模型,ChatGPT包括了GPT-3、GPT-3.5以及最新的GPT-4。这些模型在文本生成、对话系统、甚至编程帮助方面都有出色表现。
Anthropic:以人类安全和伦理为核心的Anthropic推出了Claude,这是一个注重安全、可解释性的大模型,专注于生成高质量、高准确性的回答。
Google:谷歌不仅仅创造了BERT这样的开创性自编码模型,还有Gemini——一个极具规模和复杂度的大模型,它在多种自然语言处理任务上展现了惊人的能力。
Meta:Meta贡献了LLaMA3等开源大模型,致力于推动人工智能的民主化和全球研究共享。今后细讲咋用,自己训练自己的私人大模型可能是一种趋势。
在国内,大模型的发展同样势头强劲:
阿里云:有通义千问,Qwen系列模型,包括从Qwen-1.8B到Qwen-72B不等的参数规模,这些模型也有很多开源项目。
春田知韵(抖音):推出了豆包,一个专注于多模态交互的大模型,助力复杂的对话和内容生成。
月之暗面:开发了KIMI模型,致力于提升对话系统的自然性和灵活性,尤其在娱乐和互动领域表现出色。
百度:有文心一言。专注于语言理解与生成,在搜索、信息推荐和自然语言处理等多个领域展现出强大能力。
科大讯飞:有星火模型。致力于智能语音识别和合成,在教育、医疗和智能家居等应用场景中表现卓越。
大模型的推理和评价
推理本身就是一个黑话,其实就是和大模型聊天,你就是在用大模型推理。推理有些评价指标,包括了距第一个令牌的时间 (TTFT),你点了发送,大模型多久回你。每个令牌的输出时间 (TPOT),大模型回一个字要多久,机智的你一看就懂了。这单位应该是每毫秒几个token。
评价这里面方法太多,有空专门写。主要是有:
• 语言理解能力的评测 GLUE 和 SuperGLUE:这两个基准测试集中评估模型在自然语言理解方面的能力,包括文本分类、推理、问答和情感分析等任务。这些测试模拟真实世界的语言处理场景,是衡量模型理解能力的重要标准。
• 学科知识评估 GSM8K 和 MMLU:这些基准覆盖57个不同的学科领域,为大模型提供全面的知识领域评估。GSM8K专注于数学问题解决,而MMLU通过多项选择题,测试模型在广泛学科知识上的理解和推理能力。
• 生物医学领域 BLUE-bench:这是一个专注于生物医学领域的基准测试,检验模型在医学问答和相关任务上的表现,非常适合评估模型在特定专业领域的适用性。
人类偏好对齐
还有一个看似很厉害的黑话,人类偏好对齐
大概意思就是尽管LLM的能力令人瞩目,但要使这些模型的输出行为更符合实际应用中的需求,通常需要通过对齐(alignment) 过程进行微调。
这个过程关键在于调整模型以更好地反映人类的偏好和行为准则。常见的方法包括基于人类反馈的强化学习(RLHF),这个被OpenAI等很多大佬采用,其他还有微调对齐(Supervised Fine-tuning, SFT)直接偏好优化(Direct Preference Optimization,DPO)等。
推荐阅读:
https://www.cnblogs.com/3cH0-Nu1L/p/18134797
欢迎关注我的公众号“姜小白钓鱼”,医学文章第一时间推送。