很有意思的phi3量化后的四个尝试

文摘 2024-07-02 09:26 新加坡

本文涉及到的测试步骤和相关代码已经放置在：

https://github.com/davidsajare/david-share.git

下的Deep-Learning/Fine-tuning-with-Axolotl

欢迎点亮github星星。

第一步，使用Axolotl调用DeepSpeed针对phi-3-mini-4k进行QLoRA量化（bnb），生成量化后的权重文件。

第二步，针对第一步生成的参数和权重进行反量化，与原始的phi-3-mini-4k进行合并，生成一个完整的模型。

接下来进行四种场景的测试。

四种场景：

1.Merge adapter and original model together, then do inference with FP/BF16 on vLLM. 使用vLLM针对合并后的模型进行推理，使用16位。目前vLLM还不支持bnb。

2.Merge adapter and original model together, then do inference with FP/BF16 on HF transformer. 使用HF transformer针对合并后的模型进行推理，使用16位。

3.Based on merged model #1, use bnb to quantization and inference on HF transformer. 使用HF transformer针对合并后的模型，进行bnb动态量化加载推理。

4.Use bnb to dynamically load the phi-3 base model, load the post-FT checkpoints as adapter, and then use the INFERENCE on HF transformer. 使用bnb动态加载phi-3-mini-4k基础模型，使用adapter加载QLoRA后的权重文件，然后使用HF transformer进行推理。

推理测试结果对比如下：

场景1：

描述：Merge adapter and original model together, then do inference with FP/BF16 on vLLM.
推理结果：

Generation time: 11.48 seconds
Tokens per second: 219.90
Prompt: 'Who is the current president of United States?'
Generated text: Detailed and accurate response about Joe Biden being the current president.

分析：
模型合并：适配器和原始模型合并。
推理框架：vLLM。
精度：FP/BF16。
性能：生成时间较短，tokens per second较高，推理速度快。
输出质量：生成的文本详细且准确。

场景2：

描述：Merge adapter and original model together, then do inference with FP/BF16 on HF transformer.
推理结果：

Generation time: 45.78 seconds
Tokens per second: 43.47
Prompt: 'Who is the current president of United States?'
Generated text：Accurate response about Joe Biden being the current president, but with additional context and examples.

分析：
模型合并：适配器和原始模型合并。
推理框架：HF transformer。
精度：FP/BF16。
性能：生成时间较长，tokens per second较低，推理速度较慢。
输出质量：生成的文本准确，但包含更多上下文和示例，可能更适合需要详细解释的场景。

场景3：

描述：Based on merged model #1, use bnb to quantization and inference on HF transformer.
推理结果：

Generation time: 21.50 seconds
Tokens per second: 24.93
Prompt: 'Who is the current president of United States?'
Generated text：Accurate response about Joe Biden being the current president, with brief context.

分析：
模型合并：基于合并的模型#1。
推理框架：HF transformer。
量化方法：bnb量化。
性能：生成时间适中，tokens per second较低，推理速度适中。
输出质量：生成的文本准确，包含简短的上下文，适合需要简洁回答的场景。

场景4：

描述：Use bnb to dynamically load the phi-3 base model, load the post-FT checkpoints as adapter, and then use the INFERENCE on HF transformer.
推理结果：

Model loading time: 1.92 seconds
Generation time: 95.35 seconds
Tokens per second: 20.87
Prompt: 'Who is the current president of United States?'
Generated text：Accurate response about Joe Biden being the current president, with repetitive context.

分析：
模型加载：动态加载phi-3基础模型，加载后FT检查点作为适配器。
推理框架：HF transformer。
量化方法：bnb量化。
性能：模型加载时间较短，但生成时间最长，tokens per second最低，推理速度最慢。
输出质量：生成的文本准确，但包含重复的上下文，可能需要进一步优化以减少冗余。

总结：

性能：场景1的推理速度最快，场景4的推理速度最慢。
输出质量：场景1和场景2的输出质量较高，场景3的输出简洁，场景4的输出有重复内容。
适用场景：场景1适合需要快速响应的应用，场景2适合需要详细解释的应用，场景3适合需要简洁回答的应用，场景4可能需要进一步优化以减少冗余。

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561096&idx=1&sn=b6c25ca9671242a131e4a48a5721c345

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

LLM的视频、文本和图片过滤

PTQ量化哪家强？

如何为预训练创建高质量的数据集

一句话说清预训练和微调的本质区别

HuggingFace推出小模型SmolLM

Llama-3.1 70B在两卡A100上微调

使用合成指令对 LLM 进行预训练

困惑度的正确用法

多LoRA适配器的原理、方法、实现及优势

Llama3.1-8B微调

图生图-Stable Diffusion在H100上的测试

LLM中EOS的作用

H100学习笔记#July, 2024 github开源文章与代码

Phi-3微调与量化

拓展模型的Function call能力

LLama3.1之我见

Ph3 rag的实现

GPU怎么选？微调与推理

视觉模型小钢炮：Florence-2

重量选手：FlashAttention-3

推理圈的沙皇核弹？

graphrag来啦！

如何用NVIDIA GPU运行分布式训练

Florence-2的威力

解密推理训练中的内存消耗：本周github开源代码#Week1 July, 2024

很有意思的phi3量化后的四个尝试

本周github开源代码#Week4 June, 2024

端侧视觉模型推理的考量：Phi3-Vision

我在微软AI Day上做的分享

开源一个AI知识的repo: david-share

详解视觉Transformers

继续预训练(CPT)的本质与代码实现

LLM 进 KV 缓存的量化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉