LLM推理性能测试与优化工具-第二篇

文摘   2024-09-17 22:45   北京  

上接

LLM推理性能测试与优化工具

本文涉及到的详细测试代码和测试步骤放置于:

https://github.com/xinyuwei-david/david-share.git下的:Deep-Learning/

LLM-performance-test,本文中不再赘述代码实现。欢迎给repo点亮Star,您的点赞是作者持续创作的动力。


LLM对应的场景性能要求以及工具设置的对应参数总结如下:

上一篇介绍了Phi-3.5在A100+vLLM上的推理测试结果,本篇测试TGI+A100+Phi-3.5,以及在H100上的性能。

TGI+A100+Phi-3.5:测试过程中的资源利用率:

压测结果:

vLLM+H100+Phi-3.5:

压测中的资源利用率

vLLM+H100(20% GPU mem)+Phi-3.5:

压测中的资源利用率:

vLLM+H100(40% GPU mem)+Phi-3.5:

可以看出vLLLM还是比较耗显存、靠显存的。


大魏分享
https://github.com/davidsajare/david-share.git
 最新文章