https://github.com/davidsajare/david-share.git
欢迎大家关注,点亮星星。
发布AOAI+Azure traffic manager的高可用方案。
发布我在AI day上分享的pdf讲义和demo视频
3.发布Phi3-Vision在边缘端推理的验证。
最近几天,我对Phi3-Vision在边缘端进行推理的方案进行了测试,尝试了HF Transformer、vLLM和ONNX。在我的测试中,ONNX在处理较为复杂的图片推理时,表现不如前两者,可能还有进一步优化的空间。vLLM在推理速度和准确性方面表现最佳。唯一的不足是vLLM的accelerate
模块相对耗费内存,因为它预分配KV cache,不过可以通过设置阈值进行管理。此外,vLLM也在开发FP8的推理,这将有望在未来带来更好的表现。
3.下周计划发布GPU训练资源评估工具代码。