图解AI训练

文摘 2024-09-12 14:22 新加坡

大语言模型书籍已经发布，欢迎关注、购买。

新书发布：大语言模型原理、训练及应用

本文涉及到的详细测试代码和测试步骤放置于：

https://github.com/DeepLearning/david-share.git下的：Deep-Learning/Easy-way-to-Understand-Training，本文中不再赘述代码实现。

欢迎给repo点亮Star，您的点赞是作者持续创作的动力。

获取激活值：

从模型中获取特定批次（如2和3）的输入激活值。这里的批次编号指的是数据集中的具体批次索引。每个批次的数据量由批次大小（batch size）决定，批次大小定义了一次训练迭代中处理的数据样本数量。
图中绿色部分表示输入层的激活值。

加载权重：

为层0和1加载权重。
图中绿色部分表示加载的权重。

前向传播：

使用权重将激活值通过网络的层进行前向传播。
图中黄色部分表示经过前向传播后的激活值。

绘制当前激活值：

绘制当前内存中的激活值。
不同颜色表示不同层的激活值。

计算损失：

在最后一层计算损失，并将其转换为梯度激活值。
图中红色部分表示损失计算后的梯度激活值。

反向传播：

执行反向传播，计算每层的梯度。
图中黄色部分表示反向传播过程中计算的梯度。

内存管理：

删除不再需要的内存以优化资源使用。
图中显示内存使用的变化。

梯度权重：

绘制梯度权重，显示它们对应的批次。
图中绿色和黄色部分表示不同批次的梯度权重。

错误处理：

尝试更新权重时处理错误。在这一步中，错误可能是因为尝试更新权重时，所需的梯度信息不完整或不匹配。具体来说，代码可能只计算了批次2和3的梯度，而在更新权重时需要所有批次的完整梯度信息。如果缺少某些批次的梯度，就会导致错误。这个错误信息提示用户当前只有批次2和3的梯度可用。
显示错误信息，提示只有批次2和3的梯度。

假设梯度：

模拟需要的梯度以继续训练。
图中绿色部分表示假设的梯度。

合并梯度和更新权重：

合并梯度以获得完整的梯度。
更新权重并检查结果。
图中黄色和绿色部分表示更新后的权重。

最终结果：

展示整个训练过程的结果，包括前向和反向传播的批次以及内存使用。
图中条形图表示不同时间步的内存使用和批次处理。

参考：https://github.com/srush/LLM-Training-Puzzles/tree/main

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561766&idx=1&sn=17fefb9928481a79f570559335b29a5c

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

纯CPU跑Llama3.2+LoRA Adapter

在CPU上高效使用GGUF格式的LoRA Adapter

校准数据集对模型量化的影响

让LLM来裁定LLM

记一次成功的小模型coding微调

深入理解 1-Bit LLMs：从 BitNet 到神经网络的本质

文生视频-Mochi 1

4o-realtime构建客服系统-Chainlit

4o-realtime API调用分析

微软OmniParser项目

MS-UFO论文读书笔记

智能体时代-微软UFO

端到端的GPT微调实践: 基于Personas的数据合成

GPT-4o-Realtime应用场景

此量化(我的)非彼(英伟达的)量化

金庸全集: Voice-RAG

Llama-Omni的验证-LLM多模态系列1

AI训练中优化器的选择

Flux1的验证

PyTorch LoRA SFT后转化成ONNX Runtime进行推理

ColPali实现视觉RAG

解密vLLM推理快的原因

微调STT模型Whisper

训练中的梯度检查点（Gradient Checkpointing）

用GTP-4o实现Reasoning CoT

训练/微调工具大比拼

惊艳! GPT-4o Audio

剪枝与蒸馏的最佳实践

AI训练中的优化器

AI中的混合精度（AMP）

Pixtral与Phi-3.5-Vision

AI模型知识蒸馏

LLM推理性能测试与优化工具-第二篇

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉