LLama3.1之我见

文摘 2024-07-24 12:07 新加坡

本文涉及到的详细测试代码和测试步骤后续放置于：

https://github.com/davidsajare/david-share.git

下的：LLM/Llama3.1-Test

欢迎给repo点亮Star，您的点赞是作者持续创作的动力。

一、模型查看

Llama3.1发布后，再度刷榜。我们静下心看看技术点。

Meta Llama 3.1系列是Meta开发的多语言大规模语言模型（LLMs），包括8B、70B和405B三种规模。Llama 3.1模型经过预训练和指令调优，专为多语言对话场景优化，性能优于许多现有的开源和闭源聊天模型。

查看Hugging Face上发布的模型,其中405B的模型原生已经提供FP8的版本：

我们结合Meta-Llama-3.1-405B-Instruct的模型配置文件，做一些分析：

https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct/blob/main/config.json

架构：

这是一个用于因果语言模型的架构，适用于生成任务，如文本生成和对话系统。

模型架构：LlamaForCausalLM
优化的Transformer架构：使用优化的Transformer架构，支持自回归语言模型。

注意力机制：

Meta-Llama-3.1-405B-Instruct模型使用了分组查询注意力（Grouped-Query Attention, GQA）

有16个键值头，帮助捕捉和表示输入数据的不同方面。

模型有128个注意力头，提高模型的表达能力和性能。

不使用注意力dropout，保持模型的完整性。

不使用注意力偏置，为了简化模型或提高计算效率。

attention_bias：false
attention_dropout：0.0
num_attention_heads：128
num_key_value_heads：16

标记：

句子结束的标记ID。

句子开始的标记ID。

bos_token_id：128000
eos_token_id：[128001, 128008, 128009]

隐藏层：

模型有126个隐藏层。

中间层的大小为53248。

隐藏层的大小为16384。

使用的激活函数是silu（Sigmoid Linear Unit）。

hidden_act：silu
hidden_size：16384
intermediate_size：53248
num_hidden_layers：126

位置嵌入：

factor：8.0
low_freq_factor：1.0
high_freq_factor：4.0
original_max_position_embeddings：8192
rope_type：llama3

最大位置嵌入为131072。

max_position_embeddings：131072
rope_scaling：
rope_theta：500000.0

其他参数：

词汇表大小为128256。

使用的Transformers库版本为4.42.3。

使用的Torch数据类型为bfloat16。

不绑定词嵌入。

RMSNorm的epsilon值。

预训练的TP为1。

模型类型为llama。

不使用MLP偏置。

mlp_bias：false
model_type：llama
pretraining_tp：1
rms_norm_eps：1e-05
tie_word_embeddings：false
torch_dtype：bfloat16
transformers_version：4.42.3
use_cache：true
vocab_size：128256

训练数据和方法

训练数据：Llama 3.1预训练数据来自公开可用的在线数据，总计约15万亿个token。微调数据包括公开可用的指令数据集和超过2500万个合成生成的示例。
数据新鲜度：预训练数据截止到2023年12月。
训练硬件：使用Meta定制的GPU集群和生产基础设施进行预训练和微调。
训练时间和能耗：总共使用了39.3M GPU小时，峰值功耗为700W，训练期间的温室气体排放为11,390吨CO2eq，但由于Meta使用可再生能源，市场基础的温室气体排放为0吨CO2eq。

二、训练和推理资源需求

https://huggingface.co/blog/llama31

针对训练。从下表可以看出，微调还是建议使用Q-LoRA。

针对推理，推理推荐使用FP8。FP8会与主流推理引擎兼容：(transformers, TGI, VLLM).

看目前代码支持的是Flash att2：

后续应该会支持Flash att3。这样在NVIDIA H系列GPU上FP8推理有tensor core硬件加速，LLama3.1用了Flash att3后性能应该有不少提升。

FlashAttention-3

FlashAttention-3 使用 NVIDIA 的 CUTLASS 库中的抽象来整合这些新的 Hopper 特性。像 ThunderKitten 2 和 cuDNN 9 这样的研究表明，这些硬件特性可以显著加速注意力计算。通过调整 FlashAttention 以利用这些特性，其性能显著提高（例如，从 FlashAttention-2 FP16 前向传递的 350 TFLOPS 到约 540-570 TFLOPS）。Hopper 上的异步指令（WGMMA 和 TMA）进一步提供了算法优化的机会。FlashAttention-3 引入了三种关键技术来增强现代 GPU 架构上的性能：

生产者-消费者异步（Producer-Consumer Asynchrony）：

解释：这种方法采用 warp 专用的软件流水线，将数据生产者和消费者分成不同的 warp。
优势：这种分离利用异步执行来更好地隐藏内存和指令发出延迟。
例子：假设你在做一个复杂的计算任务，任务分为两个部分：数据准备和数据处理。传统方法中，这两个部分是顺序执行的，数据准备完成后才开始数据处理。而使用生产者-消费者异步技术，数据准备和数据处理可以同时进行。比如，当一个 warp 在准备数据时，另一个 warp 已经在处理之前准备好的数据，这样可以更好地利用 GPU 资源，提高整体效率。

在异步块状 GEMM 下隐藏 Softmax（Hiding Softmax Under Asynchronous Block-wise GEMMs）：

解释：通过将低吞吐量的 softmax 操作与异步 WGMMA 指令重叠，FlashAttention-3 可以绕过 softmax 和 GEMM 之间的顺序依赖。
优势：这种方法可以显著提高计算效率。例如，在一个两阶段版本中，当 softmax 处理分数矩阵的一个块时，WGMMA 计算下一个块。
例子：假设你在做一个神经网络的前向传递，需要进行矩阵乘法（GEMM）和 softmax 操作。传统方法中，这两个操作是顺序执行的，必须等待 GEMM 完成后才能进行 softmax。而使用这种技术，当 softmax 处理第一个数据块时，WGMMA 已经开始计算下一个数据块的 GEMM，这样可以更好地利用计算资源，提高整体速度。

硬件加速的低精度 GEMM（Hardware-accelerated Low-precision GEMM）：

解释：这种调整针对 FP8 张量核心进行 GEMM，几乎将测量的 TFLOPS/s 翻倍。
优势：通过块量化和不一致处理来管理 FP32 累加器和 FP8 操作数矩阵的不同布局要求，以减轻精度降低带来的影响。
例子：假设你在做一个大规模的矩阵乘法运算，使用高精度的 FP32 浮点数可以得到非常精确的结果，但处理速度较慢。现在你决定使用低精度的 FP8 浮点数，虽然精度有所降低，但处理速度大大提高。例如，原来使用 FP32 需要 2 秒钟完成的任务，现在使用 FP8 只需要 1 秒钟。这对于对速度要求高且对精度要求不高的应用非常有用。

重量选手：FlashAttention-3

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561329&idx=1&sn=3afface28160cfcafa53ec75edb9c879

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

LLM的视频、文本和图片过滤

PTQ量化哪家强？

如何为预训练创建高质量的数据集

一句话说清预训练和微调的本质区别

HuggingFace推出小模型SmolLM

Llama-3.1 70B在两卡A100上微调

使用合成指令对 LLM 进行预训练

困惑度的正确用法

多LoRA适配器的原理、方法、实现及优势

Llama3.1-8B微调

图生图-Stable Diffusion在H100上的测试

LLM中EOS的作用

H100学习笔记#July, 2024 github开源文章与代码

Phi-3微调与量化

拓展模型的Function call能力

LLama3.1之我见

Ph3 rag的实现

GPU怎么选？微调与推理

视觉模型小钢炮：Florence-2

重量选手：FlashAttention-3

推理圈的沙皇核弹？

graphrag来啦！

如何用NVIDIA GPU运行分布式训练

Florence-2的威力

解密推理训练中的内存消耗：本周github开源代码#Week1 July, 2024

很有意思的phi3量化后的四个尝试

本周github开源代码#Week4 June, 2024

端侧视觉模型推理的考量：Phi3-Vision

我在微软AI Day上做的分享

开源一个AI知识的repo: david-share

详解视觉Transformers

继续预训练(CPT)的本质与代码实现

LLM 进 KV 缓存的量化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉