上接
本文涉及到的详细测试代码和测试步骤放置于:
https://github.com/xinyuwei-david/david-share.git下的:Deep-Learning/
LLM-performance-test,本文中不再赘述代码实现。欢迎给repo点亮Star,您的点赞是作者持续创作的动力。
LLM对应的场景性能要求以及工具设置的对应参数总结如下:
上一篇介绍了Phi-3.5在A100+vLLM上的推理测试结果,本篇测试TGI+A100+Phi-3.5,以及在H100上的性能。
TGI+A100+Phi-3.5:测试过程中的资源利用率:
压测结果:
vLLM+H100+Phi-3.5:
压测中的资源利用率
vLLM+H100(20% GPU mem)+Phi-3.5:
压测中的资源利用率: