微调提升LLM准确性，SQL查询任务实现从0%到90%准确率的突破！

文摘 2025-01-05 16:19 安徽

准确性对于基于 LLM 的应用来说通常至关重要，尤其是在 API 调用或财务报告摘要等情况下。

目前主要有下面几种方法可以提高 LLM 准确性：

提示工程（Prompt Engineering）：

提供更详细的指示；
使用少量示例（Few-shot Prompting）；
要求模型按步骤思考（Step-by-step reasoning）。

开始时可以通过优化提示语来提高模型的准确性。具体方法包括：

自我反思机制（Self-Reflection）：

如果准确性仍然不足，可以引入自我反思步骤，例如返回 API 调用的错误并要求 LLM 修正错误。

增强上下文信息：

提供与任务相关的上下文，使用 RAG 进一步提升准确性。
通过该方法在 SQL 查询任务中实现了从 0% 有效查询到 90% 准确率的突破。

进一步提升：微调（Fine-Tuning）：

微调是突破精度瓶颈的最有效方式。通过微调，我们不仅依赖于提示语提供的信息，还可以将额外的信息嵌入到模型的权重中，从而大幅提升模型的表现。

总结来说，提示工程和自我反思作为初步提升准确性的策略，但微调（Fine-tuning）是突破当前准确性瓶颈、实现更高精度的关键技术。

微调（Fine-Tuning）

微调是通过在特定的任务数据集上训练预训练模型，提升模型在特定应用上的性能。基本模型最初在大量数据上进行训练，具备广泛的语言理解能力，而微调则让这些模型更适应特定任务，成为专用工具。

微调通常采用监督学习方法，模型通过特定的问题和答案对进行训练，调整权重来提高准确性。

传统的微调方法需要更新模型所有的权重，计算开销大。为解决这一问题，引入了参数高效微调（PEFT）技术，更新少量参数，从而减少计算成本，最常用的技术之一是LoRA（低秩适配）。

优点：

精度提高：微调使模型能够学习更多的信息，精度通常可达到 90% 以上。
成本效益：微调后，可以使用较小的任务特定模型，而不必依赖大型通用模型，从而降低推理成本。
本地部署：微调后的模型可以部署在本地，避免对云提供商（如 OpenAI 或 Anthropic）的依赖，减少成本、提高隐私性并减少外部基础设施的依赖。

缺点：

前期投入：微调需要较大的前期投资，包括数据准备和模型训练。
技术难度：微调涉及特定的技术知识，可能需要一定的学习曲线。
数据质量依赖：微调的效果高度依赖于高质量的训练数据。

微调作为提升LLM（大语言模型）准确性的一种有效手段，通过定向数据训练使模型更加专注于特定任务，尽管微调过程可能涉及一定的技术和成本挑战，但其带来的准确性提升和本地部署优势使其在实际应用中非常有价值。

Lamini Memory Tuning

Lamini提出了一种新的微调方法—— Mixture of Memory Experts (MoME)，这种方法能够让 LLM 在几乎没有信息损失的情况下，学习大量的事实性信息，同时保持其广泛的推理能力，并且仅需适度的计算资源。

核心概念

LoRA 适配器：Lamini 通过在预训练的 LLM 中加入大量（大约100万个）LoRA适配器，以及一个跨注意力层，实现了这一创新。每个 LoRA 适配器相当于一个“记忆专家”，专门负责模型某个特定方面的知识存储和保留。
记忆专家（Memory Experts）的作用：这些记忆专家确保模型从微调数据中准确、忠实地保留信息。它们像信息检索系统一样工作，可以智能地从存储的知识中检索并进行路由。

在推理阶段，模型会根据查询检索出最相关的记忆专家子集，并将这些专家的输出与基本模型合并，从而生成对用户查询的回应。

Lamini Memory Tuning采用的 Mixture of Memory Experts (MoME) 方法，号称能够实现95%的准确率。其与传统的指令微调（Instruction Fine-tuning）相比，主要区别在于它的优化目标。

传统微调 vs Lamini Memory Tuning

传统微调：传统的微调方法通常是优化整个任务的平均误差。这意味着模型在进行微调时，会通过多任务学习来改进性能，但并不特别针对某个领域或事实进行优化。
Lamini Memory Tuning：相对而言，Lamini的方法则更为精准，它的目标不是优化整个任务的平均误差，而是专门针对模型所需记住的事实信息，确保这些知识的零误差。简而言之，它让模型在关键事实方面达到几乎完美的准确率，同时保持其在其他任务中的通用性。

关键特点

专注于记忆精确性：Lamini Memory Tuning 通过引入 LoRA 适配器和跨注意力机制，使得模型在处理特定任务时，能够“记住”并精确地生成与该任务相关的事实性知识。
精确训练：与传统的微调方法不同，Lamini 方法通过细致入微的优化，确保模型在特定领域知识上几乎没有错误，从而提升了对特定任务的准确性。
高效性：由于每个 LoRA 适配器专注于不同的领域或记忆点，Lamini方法在保证精度的同时，还能有效地节省计算资源，并提高推理效率。

Lamini Memory Tuning，特别是 Mixture of Memory Experts（MoME）方法，通过引入记忆专家，成功提升了 LLM 在保持准确性和知识广度方面的表现。这种方法不仅使模型在推理时更加高效，还避免了在大规模数据处理时的资源浪费，是实现高效、精确微调的创新途径。

Lamini 微调 Llama3.1-8B-Instruct

通过 Lamini 微调 Llama3.1-8B-Instruct 150 次之后，损失降低到接近为 0：

在 ClickHouse SQL Agent 查询任务中实现了从 0% 有效查询到 90% 准确率的突破：

基础 Llama 模型（产生零个有效的 SQL 查询）。

完整代码位于：

https://github.com/miptgirl/miptgirl_medium/blob/main/sql_agent_accuracy/sql_agent_fine_tuning.ipynb

全文位于：

https://towardsdatascience.com/the-next-frontier-in-llm-accuracy-cb2491a740d4

PyTorch研习社

打破知识壁垒，做一名知识的传播者

最新文章

结合Neo4j与Milvus的图谱与向量搜索构建GraphRAG Agent

OpenAI o3-mini 干翻了 DeepSeek R1？

探索提升RAG系统问答质量的技术路线

微软CoRAG：提升多步骤问答任务的表现

5种LLM微调策略：动态图示清晰解析

RAG从入门到精通系列6：Retrieval（检索）

深度解析DeepSeek-R1——打造推理型大模型的配方

Model2Vec加速RAG：模型小15倍，速度快500倍：

RAG从入门到精通系列5：Indexing（索引）

RAG从入门到精通系列4：Query Construction（查询构造）

RAG中的5种文档切分策略：动态图示清晰解析

OpenAI发布的Operator是什么？

AI制裁无效！DeepSeek-R1、DeepSeek-V3和GRPO论文总结

Kimi k1.5：与全功率o1性能匹敌的LLM技术分析

DeepSeek-R1发布24小时后，AI行业反应怎么样？

DeepSeek-R1：一款革命性的国产开源推理LLM，挑战OpenAI的高性能模型

Medium上20万次阅读的思维链高级提示付费文章

RAG从入门到精通系列3：Routing（路由）

Agentic RAG实战：LangChain+LangGraph+Docling+ChromaDB

GitHub上41.3k颗星的2025年最新免费LLM课程

传统 RAG vs. Agentic RAG：动态图示清晰解析

吴恩达：AI产品管理的黄金时代已来，未来属于懂技术的PM！

RAG从入门到精通系列2：Query Translation（查询翻译）

OpenAI率先突围：AI自我进化

RAG从入门到精通系列1：基础RAG

LLM应用落地：购买GPU的最佳指南

用LangChain的LLM Graph Transformer解锁构建知识图谱构的新姿势

2025年这7种用于构建Agentic RAG系统的架构不可或缺

CAG能取代RAG吗？别被表面现象迷惑！

增强版o1模型：Search-o1=Agentic搜索+文档内推理机制

8000字文章的AI Agent全解析：工具、规划与失败模式的深度探索

传统的SaaS的将在2025 Agent时代走向终结

NVIDIA CES2025 大会凭什么震撼了整个 AI 领域？

2025如何学习Agent？谷歌重磅发布Agent白皮书

探索AI Agent工作流设计模式：构建智能任务协作的未来

微调提升LLM准确性，SQL查询任务实现从0%到90%准确率的突破！

用基于Qwen-2.5-7B的Code Agent打造本地、开源的Multi-Agent RAG系统

大模型不一定是最优解！小模型更适合企业？

四种腾讯最新的QO技术提高RAG系统的效率和准确性：扩展、分解、消歧、抽象

Graph RAG实战：使用知识图谱和AI检索、筛选和总结医学期刊文章

AGI前夜的思考：从o3到AGI，未来已来（前端可能没未来了）

2025 Agent之年：Anthropic万字文章披露如何构建高效的AI Agent系统

从创意到工作效率，谷歌为你整理了321个生成式AI在多个行业的变革性应用

万万没想到，一家中国量化基金公司年底发布了最强开源LLM：DeepSeek V3

2025年值得入坑AI Agent的五大框架

GPT之父从OpenAI离职！OpenAI“众叛亲离”对AI的发展或许是一件好事

ModernBERT在LLM时代重塑BERT的速度与效能

12天12大突破！OpenAI的创新狂潮，彻底改变未来科技

用 PydanticAI 构建智能体应用：评估驱动开发的新时代

HuggingChat：开源、自由、高效的生成式对话平台

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

微调提升LLM准确性，SQL查询任务实现从0%到90%准确率的突破！

优点：

缺点：

微调作为提升LLM（大语言模型）准确性的一种有效手段，通过定向数据训练使模型更加专注于特定任务，尽管微调过程可能涉及一定的技术和成本挑战，但其带来的准确性提升和本地部署优势使其在实际应用中非常有价值。

核心概念

传统微调 vs Lamini Memory Tuning

关键特点