vllm虽然不是最快的框架,但是应该很多小伙伴都在用。主要原因除了推的早之外,还几乎是社区最活跃的大模型部署框架了,活跃意味着新技术,新模型适配得超快!
最新的vllm版本已经更新到0.6.3,0.6是个大版本更新,吞吐量大幅提升。
添加--num-scheduler-steps 8
的参数,8B的模型,实测吞吐量能提升85-90%!
这波大版本更新的性能大幅提升的几大手段:
server和engine的推理进程分离。
multi-step scheduling - 这个对应的是上面提到的配置参数,如果不添加,提升大约60%
异步进行logits部分处理(之前这部分内嵌到了模型结构里边。。。。)
以及一些小优化:python object cache、CPU <> GPU 通信优化、简单采样参数的快速解码