本文涉及到的详细测试代码和测试步骤放置于:
https://github.com/davidsajare/david-share.git
下的:DeepLearning/Quantization-Methods-Performance-Comparisons,本文中不再赘述代码实现。
欢迎给repo点亮Star,您的点赞是作者持续创作的动力。
内存消耗:
精度:
在vLLM上推理的性能:
个人比较推荐针对生产PTQ使用AWQ。
本文涉及到的详细测试代码和测试步骤放置于:
https://github.com/davidsajare/david-share.git
下的:DeepLearning/Quantization-Methods-Performance-Comparisons,本文中不再赘述代码实现。
欢迎给repo点亮Star,您的点赞是作者持续创作的动力。
精度:
在vLLM上推理的性能:
个人比较推荐针对生产PTQ使用AWQ。