是时候更新vllm了,新版吞吐提升2倍

学术   2024-10-14 11:55   湖北  

vllm虽然不是最快的框架,但是应该很多小伙伴都在用。主要原因除了推的早之外,还几乎是社区最活跃的大模型部署框架了,活跃意味着新技术,新模型适配得超快!

最新的vllm版本已经更新到0.6.3,0.6是个大版本更新,吞吐量大幅提升。

添加--num-scheduler-steps 8 的参数,8B的模型,实测吞吐量能提升85-90%!

这波大版本更新的性能大幅提升的几大手段:

  1. server和engine的推理进程分离。

  2. multi-step scheduling - 这个对应的是上面提到的配置参数,如果不添加,提升大约60%

  1. 异步进行logits部分处理(之前这部分内嵌到了模型结构里边。。。。)

以及一些小优化:python object cache、CPU <> GPU 通信优化、简单采样参数的快速解码



NLP前沿
一手ai news分享 \x26amp; 热点paper解读
 最新文章