14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

文摘 2024-11-17 22:10 山西

无论是面试找工作、还是自学创业，甚至想要在圈子内讨论一下AGI的潜力，但凡想要深度参与到AI浪潮中，不可避免的就是学习大型语言模型（LLM）的底层原理。

但AI发展这么多年，论文、学习资料多如牛毛，并且更新换代极快，如何快速入门，学习到那些真正的基础知识，对于新手来说都是一个难题。

最近，一位AI从业者在网上分享了自己的学习过程，仅用14天就学完了LLM所需要的核心知识，学习笔记在GitHub上斩获了675+星星，并且还在持续上涨。

仓库链接：https://github.com/hesamsheikh/ml-retreat

学习路线中的主要知识点包括token嵌入、位置嵌入、自注意力、Transformer、对Q、K、V的直观理解、因果和多头注意力、温度、top-k、top-p、分类和指令微调、旋转位置编码（RoPE）、KV缓存、无限注意力（长上下文窗口）、专家混合（MoE）、分组查询注意力（grouped query attention）、llama-2架构及相关技术等。

学习LLM三步走

作者把学习路线分为了三个步骤：

1. 从头开始构建大模型（Build an LLM from Scratch）

这部分主要是总结语言模型的基础知识，包括token、位置嵌入、自注意力机制、Transformer架构、最初版本的注意力机制（Attention is All You Need论文）和微调的基本原理。

虽然网络上已经有很多资源，但其中最关键的参考资料是Sebastian Raschka编写的《从头开始构建大型语言模型》（Build a Large Language Model From Scratch），这本书解释技术原理时非常巧妙，读者也很容易理解。

在学习构建智能体时，一个无法绕过的难题就是研究自注意力机制的工作原理：自注意力机制可以让模型在处理文本时，能够理解每个单词或短语（也可以叫做token）在整体上下文中的位置和重要性。

整个过程会涉及到三个关键概念：查询（query）、键（key）和值（value），其中查询代表模型在寻找信息时提出的问题，键则是数据库中的索引，帮助智能体快速找到相关信息，而值则是查询所寻求的具体信息或数据。

三个组件的相互作用，使得智能体能够在处理语言时，不仅可以关注单个单词，还能理解单词之间的相互关系，从而更准确地捕捉文本的深层含义。

2. 大模型幻觉（LLM Hallucination）

在学习的第二部分，作者推荐学习「什么是幻觉」以及「LLMs为什么会产生幻觉」，可能也是潜伏在很多学习者脑海中的问题，对理解语言模型也有很大帮助。

幻觉是指模型生成的文本与现实世界的事实或用户的输入不一致的现象，对于研究人员以及使用LLM构建应用的人来说是一个巨大的挑战。

在研究过程中，你可能会意识到大模型的各种问题，诸如：

位置偏差（positional bias），即模型倾向于关注距离较近的token，而忽略了更远的token，偏差可能会影响模型对文本整体含义的理解。

曝光偏差（exposure bias），在推理阶段，模型预测出一个错误的token可能会影响后续token的生成，可能会导致模型在生成文本时出现一连串的错误，从而降低输出质量。

还会意识到数据、训练和推理对「幻觉」问题都有不同的影响。

为了缓解幻觉问题，可以尝试不同的训练策略，以减少模型在训练和推理时的不一致性；还可以考虑如何通过引入位置编码来解决位置偏差问题，以及如何通过增加模型的上下文理解能力来减少幻觉的发生。

总的来说，这些问题的解决需要深入理解模型的工作原理，以及如何通过各种技术手段来优化，随着研究的深入，可以开发出更加强大和可靠的智能体，以支持各种语言处理任务。

3. LLM Edge：不止注意力

最后阶段会学习到一些不那么「基础」的一些知识，但在构建LLM系统时非常关键，主要包括：

暂停（Pause） Tokens：让大模型有更多时间「思考」。

无限注意力（Infini-attention）：通过利用之前处理过的token的记忆，可以让大模型的上下文窗口变的非常大，比如Gemini模型的上下文窗口就高达100万个token。

旋转位置编码（RoPE，Rotary Positional Embedding）：一种相对位置编码方法，在Llama以及其他许多大型语言模型中广泛使用，主要优势在于能够关注序列中距离较远的token。

KV缓存（KV Cache）：消除在生成先前token时重复的计算，可以提高效率。

专家混合（MoE，Mixture of Experts）：不止使用单一的大规模模型，而是结合了多个较小的LLMs，由Mistral模型推广（Mistral的8个大小为7B的模型在某些任务上的表现超过了Llama 2的70B模型）。

为了回顾这些主题，作者主要研究了Meta的Llama模型的架构和代码，相关资源可以在代码仓库中找到。

学习资源

在研究这些主题时，作者并不只依赖单一的资源，例如在学习大型语言模型（LLMs）的基础知识时，主要参考了《从头开始构建大型语言模型》这本书；与此同时，读论文也是必不可少的，特别是那些首次提出某项技术的研究（比如原始的Transformer论文），以及综述论文，汇总了众多研究并给出了简洁的总结。

一些教学视频也很有用，可以作为预热，让心里有一个大概的印象，一个比较好的资源是Andrej Karpathy，其中包含了大量「从零开始解释大型语言模型」的教学视频。

预备知识

数学知识

线性代数：向量和矩阵，矩阵乘法

概率论和统计学：概率的基本概念，随机变量和分布，期望值和方差，最大似然估计（MLE）

微积分：微分和积分（尤其是用于反向传播），偏导数（用于基于梯度的优化）

优化：梯度下降，随机梯度下降（SGD），高级优化器（例如Adam）

编程、框架

Python：熟悉如NumPy和Pandas这样的库

深度学习框架：TensorFlow或PyTorch，熟悉模型训练、调试和评估

深度学习概念

理解感知机、激活函数和层。反向传播和梯度下降。损失函数（交叉熵，均方误差）

卷积神经网络（CNNs）（可选，但有帮助）：有助于理解模型中层的操作

温馨提示

享受学习过程

虽然作者确实在两周之内把这些主题都学完了，涉及的概念也不是特别复杂，但作者表示，两周只是用来强调这并不是一项难以完成的任务，你并不需要设定一个严格的截止日期来学习这些资源。

在刚开始学习的时候，我也没想过14天就能学完，一切都是顺其自然，即使最后花了一个月，也没有任何问题，要享受发现新事物的乐趣。

不要拘泥于学习路线图

每个人都有自己的学习节奏和背景知识，你可以对学习路线图进行调整。

学习是一个非常个性化的体验，要学什么是基于「你已知的」和「你想知道的」，对于每个人来说，这个问题的答案都是不同的，所以不要完全照搬学习路线图，可以选择其中感兴趣的部分。

没有一本书、资源或路线图是最佳的，所以不要将自己局限于单一的资源。

不必读完所有内容

当你拿起一本书、观看YouTube视频或阅读论文来研究这些材料时，并没有规定要必须从头到尾读完，只需要获取到所需要的信息，就可以关掉了。

特别是论文，完整看完可能会非常耗时，所以在阅读这些材料之前，先确定你心中的问题，并有针对性地寻找答案，可以避免在不相关的内容上浪费时间，即使这些内容可能很有价值，但可能与你的需求无关。

参考资料：

https://towardsdatascience.com/how-i-studied-llms-in-two-weeks-a-comprehensive-roadmap-e8ac19667a31

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：新智元

http://mp.weixin.qq.com/s?__biz=MzU1NTUxNTM0Mg==&mid=2247576323&idx=3&sn=3e4ec416a68fdfc23e44d3656e91abb1

机器学习研究组订阅

机器学习研究会由百度七剑客雷鸣先生创办，旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课，广泛的和高校、企业、创业、VC开展合作，自身也参与优秀AI项目的投资和孵化。

最新文章

OpenAI「23个黑手党」出走创业，融资近百亿！华人科学家约占1/3

10种数据预处理中的数据泄露模式解析:识别与避免策略

「谍战」开启！基建狂魔马斯克122天交付10万卡超算，对手大恐慌派间谍飞机侦查

14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

Github上的十大RAG(信息检索增强生成)框架

斯坦福伯克利重磅发现DNA Scaling Law，Evo荣登Science封面！AI设计DNA/RNA/蛋白质再突破

ChatGPT深夜两弹更新！macOS版联动三款IDE无缝编程，Windows版全量上线

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

OpenAI总裁出走3月终于归来！Greg结束「最长假期」专注重大技术挑战，每周狂肝100小时代码

Transformer打破三十年数学猜想！Meta研究者用AI给出反例，算法杀手攻克数学难题

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

扩散模型失宠？端侧非自回归图像生成基础模型Meissonic登场，超越SDXL！

Scaling Law撞墙，AI圈炸锅了！OpenAI旗舰Orion被曝遭遇瓶颈，大改技术路线

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

哈佛推出全新类ChatGPT癌症诊断AI，登上Nature！准确率高达96%

基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

川普赢了，AI圈炸了！英伟达市值突破3.6万亿， OpenAI研究员：他或将见证AGI诞生

失业小哥在父母卧室做AI应用，日入2万刀！晒账单爆火全网，AI初创价值3500万

特朗普回归，美国AI解禁！马斯克变身全球首富，硅谷科技圈颠覆在即

软体机器人领域顶尖学者齐聚清华！第九届软体机器人大会将于11月15—17日在清华举行

从今天起，ChatGPT入口就是chat.com！

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer，火爆国外

英伟达3.4万亿市值稳坐全球第一！苹果12年霸主地位终结

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

AI圈卷疯了！xAI、Anthropic同日上线API：Grok免费公测，Claude 3.5 Haiku价格暴涨

AGENTiGraph：一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

【NeurIPS2024】用于时间序列预测的检索增强扩散模型

世界首个1000亿AI智能体文明诞生！北大校友打造真实版「西部世界」，技术细节全公开

o1图像理解神秘现身，网友疯狂测试！Altman自曝：o2研究生级水平破105%

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题

打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%

KDD 2024 | 数据驱动的分布偏移检测与自适应

苹果地表最强AI PC诞生，M4 Max猛兽加持性能暴涨！顶配6万，续航飙至24小时

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉