.01
.02
.03
.04
.05
集成更多推理引擎:Run Model Streamer目前已与vLLM集成,未来还可以进一步拓展至如Hugging Face的Text Generation Inference (TGI)等推理引擎,提供更强大的推理功能。 支持多GPU模型并行加载:目前的实验集中在单个GPU的加载效率上,未来Run Model Streamer可以探索多GPU并行处理的潜力,以支持更大规模的模型。 适配Kubernetes集群的自动扩展:在云计算环境中,通过Kubernetes集群实现弹性扩展已经成为趋势。Run Model Streamer若能在Kubernetes环境中实现自动扩展,将进一步提升其在企业级部署中的应用价值。 优化存储方案:在未来,可以针对不同的存储方案设计更加针对性的加载优化策略,以进一步提升加载性能。
.06
参考:
https://www.run.ai/blog/run-ai-model-streamer-performance-benchmarks