本文涉及到的详细测试代码和测试步骤放置于:
https://github.com/davidsajare/david-share.git
下的:DeepLearning/Meta-Llama-3.1-70B-Fine-Tuning,本文中不再赘述代码实现。
欢迎给repo点亮Star,您的点赞是作者持续创作的动力。
参考我此前的repo:https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Memory-comsuption-in-Training-and-Inference,70B的模型在微调时候需要的内存:
我们看到如果用QLoRA需要的显存大概是80G。
想要进一步节约内存,可以使用QLoRA基础上使用DeepSpeed的ZoRO polily,或者用FSDP。
我在进行实验的时候,使用两卡A100,训练的时候显存并未跑满,说明batchsize可以进一步提升:
查看微调的日志:
训练后的adapter: