14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

科技 2024-11-17 12:22 北京

新智元报道

编辑：LRS

【新智元导读】一位AI从业者分享的14天学习路线图，涵盖大模型从基础到高级的主要关键概念！

无论是面试找工作、还是自学创业，甚至想要在圈子内讨论一下AGI的潜力，但凡想要深度参与到AI浪潮中，不可避免的就是学习大型语言模型（LLM）的底层原理。

但AI发展这么多年，论文、学习资料多如牛毛，并且更新换代极快，如何快速入门，学习到那些真正的基础知识，对于新手来说都是一个难题。

最近，一位AI从业者在网上分享了自己的学习过程，仅用14天就学完了LLM所需要的核心知识，学习笔记在GitHub上斩获了675+星星，并且还在持续上涨。

仓库链接：https://github.com/hesamsheikh/ml-retreat

学习路线中的主要知识点包括token嵌入、位置嵌入、自注意力、Transformer、对Q、K、V的直观理解、因果和多头注意力、温度、top-k、top-p、分类和指令微调、旋转位置编码（RoPE）、KV缓存、无限注意力（长上下文窗口）、专家混合（MoE）、分组查询注意力（grouped query attention）、llama-2架构及相关技术等。

学习LLM三步走

作者把学习路线分为了三个步骤：

1. 从头开始构建大模型（Build an LLM from Scratch）

这部分主要是总结语言模型的基础知识，包括token、位置嵌入、自注意力机制、Transformer架构、最初版本的注意力机制（Attention is All You Need论文）和微调的基本原理。

虽然网络上已经有很多资源，但其中最关键的参考资料是Sebastian Raschka编写的《从头开始构建大型语言模型》（Build a Large Language Model From Scratch），这本书解释技术原理时非常巧妙，读者也很容易理解。

在学习构建智能体时，一个无法绕过的难题就是研究自注意力机制的工作原理：自注意力机制可以让模型在处理文本时，能够理解每个单词或短语（也可以叫做token）在整体上下文中的位置和重要性。

整个过程会涉及到三个关键概念：查询（query）、键（key）和值（value），其中查询代表模型在寻找信息时提出的问题，键则是数据库中的索引，帮助智能体快速找到相关信息，而值则是查询所寻求的具体信息或数据。

三个组件的相互作用，使得智能体能够在处理语言时，不仅可以关注单个单词，还能理解单词之间的相互关系，从而更准确地捕捉文本的深层含义。

2. 大模型幻觉（LLM Hallucination）

在学习的第二部分，作者推荐学习「什么是幻觉」以及「LLMs为什么会产生幻觉」，可能也是潜伏在很多学习者脑海中的问题，对理解语言模型也有很大帮助。

幻觉是指模型生成的文本与现实世界的事实或用户的输入不一致的现象，对于研究人员以及使用LLM构建应用的人来说是一个巨大的挑战。

在研究过程中，你可能会意识到大模型的各种问题，诸如：

位置偏差（positional bias），即模型倾向于关注距离较近的token，而忽略了更远的token，偏差可能会影响模型对文本整体含义的理解。

曝光偏差（exposure bias），在推理阶段，模型预测出一个错误的token可能会影响后续token的生成，可能会导致模型在生成文本时出现一连串的错误，从而降低输出质量。

还会意识到数据、训练和推理对「幻觉」问题都有不同的影响。

为了缓解幻觉问题，可以尝试不同的训练策略，以减少模型在训练和推理时的不一致性；还可以考虑如何通过引入位置编码来解决位置偏差问题，以及如何通过增加模型的上下文理解能力来减少幻觉的发生。

总的来说，这些问题的解决需要深入理解模型的工作原理，以及如何通过各种技术手段来优化，随着研究的深入，可以开发出更加强大和可靠的智能体，以支持各种语言处理任务。

3. LLM Edge：不止注意力

最后阶段会学习到一些不那么「基础」的一些知识，但在构建LLM系统时非常关键，主要包括：

暂停（Pause） Tokens：让大模型有更多时间「思考」。

无限注意力（Infini-attention）：通过利用之前处理过的token的记忆，可以让大模型的上下文窗口变的非常大，比如Gemini模型的上下文窗口就高达100万个token。

旋转位置编码（RoPE，Rotary Positional Embedding）：一种相对位置编码方法，在Llama以及其他许多大型语言模型中广泛使用，主要优势在于能够关注序列中距离较远的token。

KV缓存（KV Cache）：消除在生成先前token时重复的计算，可以提高效率。

专家混合（MoE，Mixture of Experts）：不止使用单一的大规模模型，而是结合了多个较小的LLMs，由Mistral模型推广（Mistral的8个大小为7B的模型在某些任务上的表现超过了Llama 2的70B模型）。

为了回顾这些主题，作者主要研究了Meta的Llama模型的架构和代码，相关资源可以在代码仓库中找到。

学习资源

在研究这些主题时，作者并不只依赖单一的资源，例如在学习大型语言模型（LLMs）的基础知识时，主要参考了《从头开始构建大型语言模型》这本书；与此同时，读论文也是必不可少的，特别是那些首次提出某项技术的研究（比如原始的Transformer论文），以及综述论文，汇总了众多研究并给出了简洁的总结。

一些教学视频也很有用，可以作为预热，让心里有一个大概的印象，一个比较好的资源是Andrej Karpathy，其中包含了大量「从零开始解释大型语言模型」的教学视频。

预备知识

数学知识

线性代数：向量和矩阵，矩阵乘法

概率论和统计学：概率的基本概念，随机变量和分布，期望值和方差，最大似然估计（MLE）

微积分：微分和积分（尤其是用于反向传播），偏导数（用于基于梯度的优化）

优化：梯度下降，随机梯度下降（SGD），高级优化器（例如Adam）

编程、框架

Python：熟悉如NumPy和Pandas这样的库

深度学习框架：TensorFlow或PyTorch，熟悉模型训练、调试和评估

深度学习概念

理解感知机、激活函数和层。反向传播和梯度下降。损失函数（交叉熵，均方误差）

卷积神经网络（CNNs）（可选，但有帮助）：有助于理解模型中层的操作

温馨提示

享受学习过程

虽然作者确实在两周之内把这些主题都学完了，涉及的概念也不是特别复杂，但作者表示，两周只是用来强调这并不是一项难以完成的任务，你并不需要设定一个严格的截止日期来学习这些资源。

在刚开始学习的时候，我也没想过14天就能学完，一切都是顺其自然，即使最后花了一个月，也没有任何问题，要享受发现新事物的乐趣。

不要拘泥于学习路线图

每个人都有自己的学习节奏和背景知识，你可以对学习路线图进行调整。

学习是一个非常个性化的体验，要学什么是基于「你已知的」和「你想知道的」，对于每个人来说，这个问题的答案都是不同的，所以不要完全照搬学习路线图，可以选择其中感兴趣的部分。

没有一本书、资源或路线图是最佳的，所以不要将自己局限于单一的资源。

不必读完所有内容

当你拿起一本书、观看YouTube视频或阅读论文来研究这些材料时，并没有规定要必须从头到尾读完，只需要获取到所需要的信息，就可以关掉了。

特别是论文，完整看完可能会非常耗时，所以在阅读这些材料之前，先确定你心中的问题，并有针对性地寻找答案，可以避免在不相关的内容上浪费时间，即使这些内容可能很有价值，但可能与你的需求无关。

参考资料：

https://towardsdatascience.com/how-i-studied-llms-in-two-weeks-a-comprehensive-roadmap-e8ac19667a31

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652540967&idx=3&sn=7a6c73048a0c197781d68968cf41f599

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉