GPU怎么选?微调与推理

文摘   2024-07-20 12:37   湖南  

本文涉及到的详细测试代码和测试步骤将会放置于:

https://github.com/davidsajare/david-share.git

下的:Deep-Learning/GPU-benchmarking



本文只放测试结果,测试步骤参考github。

以Llama3为例:


微调和运行大型语言模型(LLM)是一个成本密集的过程,主要由GPU使用推动。这项基准测试研究显示了为特定任务选择合适GPU的重要性,以优化时间和成本。虽然像A100和H100这样最昂贵的GPU并不一定是最快的,但消费级GPU如RTX 4090在微调和推理方面提供了非常具有成本效益的替代方案。

为什么呢?

如果我们将RTX 4090的规格与H100进行比较,可以看到RTX 4090具有更高的时钟速度、更多的CUDA核心和略多的张量核心。然而,H100的昂贵HBM内存的带宽远高于RTX 4090的GDDR6x内存。如果增加推理或微调的批处理大小,配备更好内存的高价GPU的效率将显著提高。此外,对于超过30B参数的大型语言模型,即使模型经过量化,RTX 4090的内存可能也不足以在标准超参数下进行微调和推理。此时,只能选择配备更多内存但速度较慢的GPU。


参考链接:https://kaitchup.substack.com/p/gpu-benchmarking-what-is-the-best


大魏分享
https://github.com/davidsajare/david-share.git
 最新文章