为此,第四范式发布了大模型推理框架SLXLLM以及推理加速卡SLX,在二者联合优化下,在文本生成类场景中,大模型推理性能提升10倍。例如在使用4张80G GPU对72B大模型进行推理测试中,相较于使用vLLM,第四范式使用SLXLLM+SLX的方案,可同时运行任务数量从4增至40。此外,推理加速卡SLX也可兼容TGI、FastLLM、vLLM等主流大模型推理框架,大模型推理性能提升约1-8倍。
为此,第四范式发布了大模型推理框架SLXLLM以及推理加速卡SLX,在二者联合优化下,在文本生成类场景中,大模型推理性能提升10倍。例如在使用4张80G GPU对72B大模型进行推理测试中,相较于使用vLLM,第四范式使用SLXLLM+SLX的方案,可同时运行任务数量从4增至40。此外,推理加速卡SLX也可兼容TGI、FastLLM、vLLM等主流大模型推理框架,大模型推理性能提升约1-8倍。