首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

LLM推理性能测试与优化工具-第二篇

文摘 2024-09-17 22:45 北京

上接

LLM推理性能测试与优化工具

本文涉及到的详细测试代码和测试步骤放置于：

https://github.com/xinyuwei-david/david-share.git下的：Deep-Learning/

LLM-performance-test，本文中不再赘述代码实现。欢迎给repo点亮Star，您的点赞是作者持续创作的动力。

LLM对应的场景性能要求以及工具设置的对应参数总结如下：

上一篇介绍了Phi-3.5在A100+vLLM上的推理测试结果，本篇测试TGI+A100+Phi-3.5，以及在H100上的性能。

TGI+A100+Phi-3.5：测试过程中的资源利用率：

压测结果：

vLLM+H100+Phi-3.5：

压测中的资源利用率

vLLM+H100（20% GPU mem）+Phi-3.5：

压测中的资源利用率：

vLLM+H100（40% GPU mem）+Phi-3.5：

可以看出vLLLM还是比较耗显存、靠显存的。

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561894&idx=1&sn=f8efbe1f5f2d6b694a412a468708e9c0

https://github.com/davidsajare/david-share.git

最新文章

纯CPU跑Llama3.2+LoRA Adapter

在CPU上高效使用GGUF格式的LoRA Adapter

校准数据集对模型量化的影响

让LLM来裁定LLM

记一次成功的小模型coding微调

深入理解 1-Bit LLMs：从 BitNet 到神经网络的本质

文生视频-Mochi 1

4o-realtime构建客服系统-Chainlit

4o-realtime API调用分析

微软OmniParser项目

MS-UFO论文读书笔记

智能体时代-微软UFO

端到端的GPT微调实践: 基于Personas的数据合成

GPT-4o-Realtime应用场景

此量化(我的)非彼(英伟达的)量化

金庸全集: Voice-RAG

Llama-Omni的验证-LLM多模态系列1

AI训练中优化器的选择

PyTorch LoRA SFT后转化成ONNX Runtime进行推理

ColPali实现视觉RAG

解密vLLM推理快的原因

微调STT模型Whisper

训练中的梯度检查点（Gradient Checkpointing）

用GTP-4o实现Reasoning CoT

训练/微调工具大比拼

惊艳! GPT-4o Audio

剪枝与蒸馏的最佳实践

AI训练中的优化器

AI中的混合精度（AMP）

Pixtral与Phi-3.5-Vision

AI模型知识蒸馏

LLM推理性能测试与优化工具-第二篇

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉