此量化(我的)非彼(英伟达的)量化

文摘 2024-10-20 12:16 新加坡

英伟达在推广其H20的时候，会强调其FP8推理和A100的FP16推理的性能是一样的。实测效果也还不错。

一、我说的量化

我们知道两个事实：

大多数HF的模型格式，都是FP16的：

2.量化我们一直在做，bnb动态量化; AWQ、GPTQ的量化等等。这个和英伟达的在H20上宣称的FP8量化推理有什么区别呢？

首先，我们常做的量化，其实主要是针对模型的静态文件。我们详细来来说。

从一个较高层次的分类来看，模型量化的手段通常可以分为两大类：量化感知训练（Quantization-Aware Training, QAT）和后训练量化（Post-Training Quantization, PTQ）。

量化感知训练（QAT）: 在模型训练过程中模拟量化的效果，使模型在训练时就考虑到量化带来的误差。通常能够产生更高精度的量化模型，因为模型参数在训练时就适应了量化的约束。
后训练量化（PTQ）: 在模型训练完成后应用的量化方法，不需要重新训练模型。
LLM 有三种流行的量化方法：GPTQ、bitsandbytes 和 AWQ。这几种都属于后训练量化（PTQ）。

具体来说：权重量化将模型的权重（weights）和偏置（biases）从高精度（如 FP32 或 FP16）转换为低精度（如 INT8、INT4 或 FP8）。

如果使用训练后量化的方法是：在模型训练完成后，使用量化工具对权重进行转换。这通常包括确定量化参数（如缩放因子和零点）并应用到权重上。

存储：量化后的权重被保存到模型的静态文件中（如 .pth、.onnx、.pb 等），从而减少模型的存储空间和内存带宽需求。

模型量化以后，在进行推理的时候，默认还是用FP16，这其中有个反量化的过程。

那么问题来了：

针对微软的Phi3，HF上默认是FP16，1.直接使用FP16进行推理 2.AWQ四位量化的Phi3模型使用FP16进行推理，那么这两种情况有什么区别么？

1和2之间的区别在于，2在显存开销要小得多。4位张量在推理期间的前向传递过程中只会短暂地反量化。在现有主流TGI、vLLM的推理框架中，我们也不需要也不能指定用4位推理，关键那样的话推理的精度也不准。所以说，使用量化模型进行推理时，是以float16进行，模型的必要张量会即时反量化。

二、NVIDIA说的量化

而英伟达在H20说的FP8推理，其实算是一个端到端的8位量化推理。这就要求必须要保证推流过程中的精度，而且越大的模型，使用FP8进行推理，精度越难以保持。这有三个要求：

1.首先需要GPU卡支持FP8推理（底层tensor core支持)，H100支持FP8。A100不支持FP8只支持int8。

其次，并不是所有推理引擎都支持FP8推理,tensorrt支持。vLLM最近正在开发对FP8的支持。

最后，如果要使用8位推理，必须加载一个FP8模型。例如，Llama 3.1 405B有一个由Meta制作的FP8版本：https://huggingface.co/meta-llama/Llama-3.1-405B-FP8。

三、4/8位量化模型16位推理的意义

意义是显然的：

省运行内存
省模型文件存储空间
由于模型小，传送也快。

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

纯CPU跑Llama3.2+LoRA Adapter

在CPU上高效使用GGUF格式的LoRA Adapter

校准数据集对模型量化的影响

让LLM来裁定LLM

记一次成功的小模型coding微调

深入理解 1-Bit LLMs：从 BitNet 到神经网络的本质

文生视频-Mochi 1

4o-realtime构建客服系统-Chainlit

4o-realtime API调用分析

微软OmniParser项目

MS-UFO论文读书笔记

智能体时代-微软UFO

端到端的GPT微调实践: 基于Personas的数据合成

GPT-4o-Realtime应用场景

此量化(我的)非彼(英伟达的)量化

金庸全集: Voice-RAG

Llama-Omni的验证-LLM多模态系列1

AI训练中优化器的选择

Flux1的验证

PyTorch LoRA SFT后转化成ONNX Runtime进行推理

ColPali实现视觉RAG

解密vLLM推理快的原因

微调STT模型Whisper

训练中的梯度检查点（Gradient Checkpointing）

用GTP-4o实现Reasoning CoT

训练/微调工具大比拼

惊艳! GPT-4o Audio

剪枝与蒸馏的最佳实践

AI训练中的优化器

AI中的混合精度（AMP）

Pixtral与Phi-3.5-Vision

AI模型知识蒸馏

LLM推理性能测试与优化工具-第二篇

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉