llama.cpp引入了一个新功能 gguf可以支持LoRA加载了。我实测torch format merged model(Base model+ LoRA Adapter) to gguf后模型的困惑度,比base和 adapter分别to gguf,然后动态加载的困惑度,只低3%。我采用第二种方法,我把base model转化为GGUF,然后量化为4位,然后动态加载GGUF 4位base model+ FP16 adater的速度如视频,这是在纯CPU上推理的效果,我为此专门把cuda给禁了,大家可以看看效果,如果是小模型,是不是基本生产可用?
本demo涉及到的详细测试代码和测试步骤放置于:
https://github.com/xinyuwei-david/david-share.git下的:Deep-Learning/GGUF-LoRA
欢迎给repo点亮Star,您的点赞是作者持续创作的动力。