大语言模型垂直领域融合的最优解:微调or检索增强生成?

文摘   2024-10-16 16:00   江苏  

大语言模型对企业垂直领域知识进行融合,有两个主流方向:Fine-Tuning 微调RAG 检索增强生成



Fine-Tuning 微调


Fine-Tuning是一种通过在大规模预训练模型的基础上,针对特定任务或领域进行微调的方法,核心在于利用预训练模型已经学到的丰富语言知识和泛化能力,通过少量的任务特定数据来优化模型参数,可以使模型更好地适应特定领域的需求和特征。


让大语言模型对企业垂直领域知识或者私域知识进行融合,其中一种方式则是大模型微调,通过将私域知识标注为训练数据,直接对大模型进行增量训练,提升大模型自身的知识储备和认知能力。


通过此方式,涌现出越来越多的垂域大模型,比如:法律大模型,金融大模型,医疗大模型等等垂域大模型

#垂直领域大模型的基本套路

Continue PreTraining: 垂直大模型一般利用通用大模型进行二次开发。将私域知识标注为训练数据,给模型注入领域知识,用领域内的语料进行继续的预训练
SFT: 通过SFT激发大模型理解领域内各种问题,增强模型针对领域内各类问题的理解和响应能力。这一过程依赖于精确标注的领域相关数据集,确保模型在拥有一定知识召回能力的基础上,能够更有效地解析并回答领域内的复杂问题。

RLHF: 通过RLHF引入人类偏好来优化模型的行为和输出,以指导模型的训练过程,从而增强模型对人类意图的理解和满足程度。

通过大模型微调融合企业垂直领域知识,虽然解决了大模型缺乏领域专业性,专注于特定任务,能够提供高精准度的解决方案,但是随着企业业务的不断发展和变化,领域知识的更新迭代,垂域大模型需要不断更新和迭代以适应新的需求。这可能需要投入更多的资源和时间进行模型的重新训练调优



RAG检索增强生成


RAG(Retrieval-Augmented Generation)通过在大模型外部构建一套检索体系,解决企业私域知识的提炼和召回问题,并通过 prompt 让大模型在企业私域知识的背景下返回结果,实现企业垂直领域知识或私域知识的融合。

与 Fine-Tuning 不同,RAG 降低了企业对大模型应用的技术门槛,广受非 AI 专业企业的热衷,借助 RAG 框架为企业进行赋能。

RAG 框架构建了 检索 和 生成 的分工机制,在不改变大语言模型 生成能力的基础上,检索现有的大量知识,结合强大的生成模型,为复杂的问答、文本摘要和生成任务带来了全新的解决方案。

然而企业在实践大模型 + RAG 框架时会发现,有时候在某些情况并不尽人意,尽管大模型的推理和生成能力已经日渐成熟,但是 RAG 框架下文本片段 + 向量召回机制下的 检索准确率问题,往往制约了大模型本身能力的发挥。如何更好的协同检索和生成的能力,一直是大模型应用探索的方向

#RAG面临的挑战


  • 信息损失:

    为了实现高效的文档检索,需要将文本数据向量化。数据向量化导致一定程度的信息损失,因为文本数据的复杂性和多样性很难用有限的向量来完全表达。因此,数据向量化可能会忽略一些文本数据的细节和特征,从而影响文档检索的准确性。

  • 语义搜索不准确:

    从文档集合中召回与用户问题最相关的文档,难点在于理解问题和文档的语义,并准确衡量它们之间的相似度。例如是利用向量空间距离度量相似度,但这种方法受限于无法完全反映真实语义及易受噪声干扰,因此语义搜索的准确率难以保证。

  • 检索效果差:
    文本分割不当,影响检索内容的精确度与全面性。文本划分尺寸直接关系到查询时与用户提问的贴合度:过小可能无法涵盖问题所有相关内容;过大则易引入冗余信息。

#RAG的优化实践


为了解决RAG上述面临的问题,我们可以把 RAG 的 检索环节总结成三个步骤知识预处理用户提问知识召回。在每一个步骤里,深化探索帮助改善检索问题的具体实践:


  • 知识预处理:

    知识切分优化:按固定字符切,有时候会遇到句子含义联系比较紧密的片段被切分成了两条数据,导致数据质量比较差。可以通过语义理解小模型进行句子拆分,使拆分出来的知识片段语义更加完整

    智能摘要:对整篇文档的内容进行摘要提取,摘要可以用于单独匹配用户的问题

    索引优化:除了构建向量索引,增加分词索引,图谱索引等,多种索引方式,增加召回的准确率。除此之外,针对知识数据预先用大模型生成一些有关联的假设性问题,当命中这些假设性问题时,也可搜索到相应的知识数据。
    图片加工:仅依靠图片上下文关系或 ORC 技术对图片进行内容推理的方式可能并不可靠,借助大模型对图片的理解能力,将文档内的图片归纳为文本描述,从而以文本的形式与用户问题匹配。

  • 用户提问:
    RAG-Fusion:根据原始问题从不同角度生成多个版本的新问题,然后针对每个question进行向量检索,最后通过倒数排名融合来重新排名搜索结果。
    Step-Back Prompting:从原始问题中后退一步,并提出一个更抽象、更高层次的问题。围绕一个更广泛的概念或原则,LLM更有效地构建它们的推理
    提问降噪:维护停用词,针对用户提问,去除不起作用的停用词,理解问题的核心

  • 知识召回:

    多路召回:单纯的语义向量召回时,当文本向量化模型训练不够优时,向量召回的准确率会比较低,此时需要利用其他召回作为补充。采用多路召回的方式,增加分词索引,图谱索引等召回方式,来达到比较好的召回效果。文档去重:多路召回可能都会召回同一个结果,针对这部分数据要去重。其次,去重后的文档可以根据数据切分的血缘关系,做文档的合并
    重排模型召回:每种召回策略的排序打分模型有差异,使用统一的评判标准筛选最终统一的数据


RAG想做出来比较容易,但想做好还是比较难的,每个步骤都有可能对最终效果产生影响。


槿墨AI
产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言



槿墨AI
开启探索人类未来命运的旅程,拥抱如槿似墨的无限可能。
 最新文章