多LoRA适配器的原理、方法、实现及优势

文摘 2024-08-03 15:12 新加坡

本文涉及到的详细测试代码和测试步骤放置于：

https://github.com/davidsajare/david-share.git

下的：Deep-Learning/Multi-LoRA-adapter。本文不再重复放置大量代码。

一、多适LoRA适配器调用的意义

在现代自然语言处理（NLP）任务中，大型语言模型（LLM）如GPT-3、Llama等展现了强大的能力。然而，为了进一步提升这些模型在特定任务或领域的表现，我们通常需要对模型进行微调。LoRA（Low-Rank Adaptation）适配器是一种高效的微调方法，通过调整少量参数来优化模型性能。本文将介绍如何利用vLLM框架实现多LoRA适配器的统一管理和调用，并探讨其原理、方法、实现及优势。

LoRA适配器通过低秩矩阵分解技术对预训练模型进行微调，而无需调整模型的全部参数。这种方法显著减少了微调所需的计算资源和时间。多个LoRA适配器可以分别针对不同任务进行微调，并在推理过程中动态切换，以优化模型在多任务环境中的表现。

outputs = llm.generate(prompts_oasst, sampling_params_oasst, lora_request=oasstLR)

使用LoRA适配器的优势

资源效率：

LoRA适配器通过微调少量参数，显著减少了微调所需的计算资源和时间。相比之下，RAG可能需要维护和查询一个大型的外部知识库，可能会增加系统复杂性和资源需求。

响应速度：

由于LoRA适配器是直接加载到模型中的，推理速度通常更快。而RAG需要进行检索和生成两个步骤，可能会增加一些延迟，特别是在实时应用中。

离线应用：

LoRA适配器可以完全离线运行，不需要依赖外部知识库，这在某些网络受限或数据安全要求高的场景中非常有用。

特定任务优化：

LoRA适配器可以非常精细地针对特定任务或数据进行优化，提升模型在这些任务上的性能。例如，通过微调适配器，可以使模型在特定类型的问题上表现得更好。

二、多LoRA适配器的内存效率

参数高效微调：

LoRA适配器通过低秩矩阵分解技术，只对预训练模型的部分参数进行微调，而不是对整个模型进行完整的微调。这种方式显著减少了需要存储和更新的参数数量，从而减少了内存占用。

共享基础模型：

多个LoRA适配器可以共享同一个基础模型的参数。基础模型的参数只需要加载一次，而每个适配器只需额外存储少量的微调参数。这种共享机制大幅减少了内存重复使用的问题。

动态加载和卸载：

虽然vLLM框架支持同时加载多个适配器，但它通过高效的内存管理机制，确保这些适配器在内存中的占用最小化。适配器的参数只有在需要时才会被激活和使用，而不需要时可以保持在较低内存占用状态。

三、多Adapter切换与RAG方案相比的优劣势

使用RAG的优势

动态信息更新：

RAG可以实时访问和使用最新的信息，适用于需要经常更新数据的场景。例如，产品信息、新闻等。这种动态性在需要处理实时数据的应用中非常重要。

丰富的知识库：

RAG可以利用大型外部知识库，提供更广泛和详细的信息。对于一些需要大量背景知识或长尾信息的问题，RAG可能会更有效。

灵活性：

RAG方法可以灵活地整合不同的信息源，例如文档、数据库、API等，提供多样化的信息支持。

在实际应用中，选择使用LoRA适配器还是RAG方法，取决于具体的应用需求和环境：

如果你的应用需要高效、快速的响应，且可以通过微调模型来显著提升特定任务的性能，LoRA适配器可能更合适。
如果你的应用需要实时访问和使用最新的外部信息，或者需要处理大量背景知识，RAG方法可能更适合。

当然，这两种方法也可以结合使用。例如，可以使用LoRA适配器来提升模型在特定任务上的基础性能，同时使用RAG来补充和扩展模型的知识库，从而达到最佳效果。

如果是边缘小模型，建议使用多Adapter的方法。微调出适应不同场景的小模型，然后根据任务进行不同调用。
```
prompts_oasst = [    "### Human: Check if the numbers 8 and 1233 are powers of two.### Assistant:",    "### Human: What is the division result of 75 divided by 1555?### Assistant:",]
outputs = llm.generate(prompts_oasst, sampling_params_oasst, lora_request=oasstLR)
for output in outputs:    generated_text = output.outputs[0].text    print(generated_text)    print('------')
```

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561408&idx=1&sn=7df4e2ddb4a9ea52c64bdd8afe4bc99b

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

LLM的视频、文本和图片过滤

PTQ量化哪家强？

如何为预训练创建高质量的数据集

一句话说清预训练和微调的本质区别

HuggingFace推出小模型SmolLM

Llama-3.1 70B在两卡A100上微调

使用合成指令对 LLM 进行预训练

困惑度的正确用法

多LoRA适配器的原理、方法、实现及优势

Llama3.1-8B微调

图生图-Stable Diffusion在H100上的测试

LLM中EOS的作用

H100学习笔记#July, 2024 github开源文章与代码

Phi-3微调与量化

拓展模型的Function call能力

LLama3.1之我见

Ph3 rag的实现

GPU怎么选？微调与推理

视觉模型小钢炮：Florence-2

重量选手：FlashAttention-3

推理圈的沙皇核弹？

graphrag来啦！

如何用NVIDIA GPU运行分布式训练

Florence-2的威力

解密推理训练中的内存消耗：本周github开源代码#Week1 July, 2024

很有意思的phi3量化后的四个尝试

本周github开源代码#Week4 June, 2024

端侧视觉模型推理的考量：Phi3-Vision

我在微软AI Day上做的分享

开源一个AI知识的repo: david-share

详解视觉Transformers

继续预训练(CPT)的本质与代码实现

LLM 进 KV 缓存的量化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉