近期AI研究精华:战略性链式思维链提升LLM性能;噪声对LLM竟有正向作用?COF助力构建高质量长文本问答,长上下文强过RAG?

文摘   2024-12-02 16:35  

1. 战略性链式思维:提升LLM性能的方法论

通过在中间链式思维(CoT)推理步骤前融入战略性知识,此方法旨在优化LLM性能,指导问题解决策略,从而生成CoT路径和最终答案。使用Llama3-8b模型,在GSM8K数据集上实现了21.05%的性能提升。

原文地址:https://arxiv.org/abs/2409.03271v1…

论文提出的战略思维链(Strategic Chain-of-Thought, SCoT)方法,旨在解决大型语言模型(LLMs)在推理任务中思维链(Chain-of-Thought, CoT)方法的不稳定性问题,以下关键内容速读:

研究背景

  • LLMs在推理任务中表现出色,CoT范式对提升其推理能力至关重要,但CoT生成的推理路径质量不稳定,影响推理性能。

  • 现有增强CoT路径质量的方法存在资源需求高、需外部知识源等问题。


术语解释

  • SCoT(Strategic Chain-of-Thought):战略思维链,是一种旨在提升大型语言模型(LLMs)推理能力的方法。它通过在生成推理步骤之前引入战略知识,解决传统思维链(CoT)方法中推理路径质量不稳定的问题。在单查询设置下分两步,先引出战略知识,再应用其解决问题得出答案。不同领域战略知识的确定规则不同。

  • 战略知识:在面对问题时,模型首先识别并确定解决问题最有效和高效的方法,此即为战略知识。指能引导推理得出正确稳定解的方法或原则,模型从多种可能的方法中选择最适合解决当前问题的策略,需满足正确全面的解题方法和相对简单的解题步骤两个原则。

    • 在不同领域,战略知识的确定规则各异。在数学领域,倾向于选择如特定公式等能生成优雅高效解决方案的知识;物理领域则注重选择最相关且直接的公式或过程;多跳推理中,重点在于确定合适的问题分解粒度和回忆相关信息

  • 少样本战略思维链(Few-shot Strategic Chain-of-Thought):通过利用策略选择示例,分为构建基于策略的示例语料库和模型推理两个阶段,可进一步提升推理能力。

    • 一是通过零样本SCoT方法为训练集中的问题生成答案,将准确的问题 - SCoT答案对保留下来构建语料库;

    • 二是在模型推理阶段,先让模型生成战略知识,再用其在语料库中搜索匹配最相关的示例,最后将这些示例整合为少样本输入,引导模型生成最终预测。

实验内容

  • 数据集和任务:使用多个推理相关数据集,包括数学、物理、常识、多跳和空间推理等领域,少样本SCoT实验仅在部分数据集上进行。

  • 模型:采用多种LLMs,如Llama3系列、Llama2系列、Mistral - 7B、Qwen2系列和ChatGLM4 - 9B等。

  • 基线方法:使用零样本提示、Self - Consistency和Step Back作为基线,因BoT模板不可用未选择。

实验结果

  • 所有数据集结果:在零样本设置下,SCoT在多数任务中优于CoT,在GSM8K和Tracking Object数据集上有显著提升,在常识推理任务中表现出色;扩展为少样本设置后性能更强。

  • 所有模型结果:SCoT能提升多数模型性能,模型大小对SCoT有效性有影响,表现为性能提升随模型大小略有下降,且大模型更易在零样本设置下生成含战略知识的CoT路径。

  • 消融研究:添加角色、工作流程和格式化提示可提高准确性,少样本SCoT中增加示例数量性能或微升或不变。

  • 案例研究:通过具体案例展示SCoT在数学、物理和多跳推理任务中,相比CoT能引导模型生成更准确有效的推理路径。

  • 效率分析:SCoT比多查询方法更高效,但输出令牌长度可能更长,导致效率略低于CoT但仍可控。

讨论与结论

  • 自动SCoT:初步测试表明自动生成SCoT提示模板可行,虽准确率低于手动制作的SCoT提示,但优于零样本CoT性能。

  • 结论:SCoT提升了LLMs在复杂推理任务中的性能,减少了因推理路径不稳定导致的错误。它不依赖多查询方法或外部知识源,降低了计算开销和操作成本


2. RAG噪声对LLMs的影响:有益噪声的研究

本研究提出了NoiserBench这一基准测试,用以衡量不同类型噪声信息对RAG性能的影响。研究发现,在所考察的不同种类有益噪声中(如语义噪声、数据类型噪声和非法句子噪声),非法句子噪声显著提升了多个模型和数据集上的模型性能。

原文地址:https://arxiv.org/abs/2408.13533

“Pandora’s Box or Aladdin’s Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models”,论文主要探讨了检索增强生成(RAG)中噪声对大语言模型(LLMs)的影响,核心内容速读:

研究背景

  • LLMs虽能力出色,但面临知识过时和幻觉等问题,RAG可缓解这些问题,但互联网中的噪声可能影响RAG系统性能。

  • 现有研究对RAG噪声的探讨存在局限,如噪声类型有限、缺乏分类和系统性评估,且常假定噪声有害,忽视其潜在积极影响。

研究贡献

  • 从语言学角度定义了七种RAG噪声类型,并分为有益(语义、数据类型、非法句子)和有害(反事实、支持性、正字法、先验)两类,这是首次从语言和实践角度全面定义和评估RAG噪声。

  • 提出构建多样化检索文档的框架,创建了噪声RAG基准NoiserBench,有效模拟现实噪声对RAG模型的影响。

  • 通过对八个数据集和代表性LLMs的评估,揭示不同噪声的作用,发现有益噪声能提升模型性能。


研究内容

  • 噪声分类

    • 语义噪声(SeN):检索文档中与查询语义相关性低、偏离主题或意图的内容,如关于美国士兵的内容对大卫·贝克汉姆相关问题就是语义噪声。

    • 数据类型噪声(DN):网络上不同数据类型的混合,如文本、URL和代码的混合,像维基百科中链接与文本混合的情况。

    • 非法句子噪声(ISN):语法不正确的句子片段,如“history transform cover managed that hand black”。

    • 反事实噪声(CN):互联网中的虚假信息,如错误陈述贝克汉姆效力于曼联,会干扰模型判断。

    • 支持性噪声(SuN):与假设高度语义相关但缺乏答案信息的文档,如关于贝克汉姆的相关报道但无确切答案内容。

    • 正字法噪声(ON):书写错误,如拼写错误、单词延长等,会对模型性能产生负面影响。

    • 先验噪声(PN):基于错误假设或前提的问题,如关于谷歌重组时间错误的问题。

  • 噪声影响

    • 有害噪声(如反事实、支持性、正字法噪声)会损害模型性能,干扰准确事实判断和答案生成。

    • 有益噪声(如语义、数据类型、非法句子噪声)能提升模型性能,非法句子噪声对模型性能提升最显著,平均提升准确率达一定比例且在不同数据集表现稳定。


实验内容

  • 假设提出:有益噪声有助于更清晰明确的推理过程、更标准化的响应格式、增加模型对黄金上下文的信心。

  • 验证方法

    • 案例研究:对比Llama3 - 8B - instruct在有无有益噪声下对问题的回答,证明有益噪声可使模型更关注黄金上下文,增强辨别信息能力,产生更标准化答案格式。

    • 关于“反事实证据生成”(Counterfactual Evidence Generation)的提示(Prompt),指导用户如何为给定的问题和答案创造一个简短的、看似真实的证据段落,即使这个证据是虚构的。这个过程的目的是生成尽可能接近现实的假内容和支持性证据,而不需要考虑所给答案的正确性。图中提供了三个例子来说明这个过程:

    • 对于问题“法国的首都是哪里?”,错误的答案“里昂”被给出,并且提供了虚构的证据来支持这个错误答案,比如“里昂是法国的首都,是法国第三大城市,以其历史和建筑地标而闻名”。

    • 对于问题“美国退休人员协会(AARP)在政治光谱上的位置如何?”,错误的答案“倾向于保守”被给出,并且提供了虚构的证据,比如“AARP因其强调财政责任和传统价值观的政策倡导而常被视为倾向于保守”。

    • 对于问题“谁是谷歌DeepMind的首席科学家?”,正确的答案“Demis Hassabis”被给出,并且提供了真实的证据,比如“Demis Hassabis是一位英国人工智能研究员、神经科学家和企业家,他是DeepMind的联合创始人和首席科学家”

    • 最后,图中要求用户创建自己的问题和答案,并为这个答案提供虚构的证据。这个练习是为了训练创造性思维、批判性思维或者用于人工智能模型的训练。

    • 统计分析:收集模型输出,分析四个强大LLMs输出不确定性。

  • 实验设置

    • 数据集:使用多个QA数据集,分为单跳、显式多跳、隐式多跳、混合跳四类,如Natural Questions、HotPotQA等。

    • 基线模型:评估不同架构和规模的LLMs,包括Llama3 - Instruct、Qwen2 - 7B - Instruct等。

    • 实现细节:使用特定GPU、内存、Python版本和vllm库加速推理。

实验结论

  • 有害噪声中反事实噪声对模型性能影响最大,有益噪声中非法句子噪声提升效果显著,先验噪声处理不当会使模型性能大幅下降。

  • 有益噪声在不同架构和规模模型以及专业RAG模型中均能提升性能,如非法句子噪声对Self-RAG模型性能的提升。

  • 通过非参数Wilcoxon符号秩检验,证明有益噪声对模型性能的提升具有统计学意义。

  • 发现有益噪声使更多样本推理更清晰、输出格式更好;分析四个强大LLMs输出不确定性,表明有益噪声可降低不确定性,增加模型对输出的信心。


3. LongCite:长上下文中引用生成的进展

LongCite合成了一个大规模的微调(SFT)数据集,利用现成的LLMs来改进长上下文问答中的引用生成,并提高了回答的准确性。该模型参数为8B和9B,在长文本情境下增强了引用生成能力,甚至在其提出的LongBench-Cite基准测试中超越了GPT-4o。

原文地址:https://arxiv.org/abs/2409.02897

“LONGCITE: ENABLING LLMS TO GENERATE FINEGRAINED CITATIONS IN LONG - CONTEXT QA”由清华大学和智谱AI的Jiajie Zhang、Yushi Bai等人撰写。论文旨让长文本大语言模型(LLMs)生成带有细粒度句子级引用的回复,以提高其准确性和可验证性。

术语解释

  • COF(Coarse to Fine)是一种用于自动构建高质量长文本问答(QA)实例及句子级引用的管道方法,提升大语言模型(LLMs)在长文本问答任务中生成精确引用的能力COF(Coarse to Fine)是一种用于自动构建高质量长文本问答(QA)实例及句子级引用的管道方法,旨在提升大语言模型(LLMs)在长文本问答任务中生成精确引用的能力,具体流程如下:

    • QA实例生成:先利用LLM通过Self - Instruct方法根据长文本生成查询和答案,同时在提示中融入不同任务类型描述以保证查询的多样性。

    • 块级引用生成:将上下文分割为128 - token的块,用答案中的句子检索约k个块,保留与每个句子最相关的若干块(共约k个),将这些块与查询和答案一起输入LLM,通过一次性学习为答案中的每个陈述生成块级引用。

    • 句子级引用提取:扩展每个被引用的块,保留并编号其中完整句子,然后让LLM从扩展块中提取支持性句子片段,以数字跨度形式表示引用,最后整理得到最终的句子级引用。

    • 数据过滤:过滤掉答案中引用语句占比少于20%的实例,因为引用过少可能意味着答案在上下文中缺乏事实依据,容易导致模型产生幻觉。

  • LQAC是长文本问答中的带引用的问答任务,即Long-context Question Answering with Citations.具体介绍如下:

    • 任务背景:当前的长文本模型在回答问题时往往缺乏引用,导致用户难以验证信息的准确性,且模型易出现“幻觉”问题,影响其可信度.

    • 评测维度-回答正确性:包含回答是否正确,即与标准答案契合度;以及与普通长文本问答相比,加入引用后回答的正确性是否受损.

    • 评测维度-引用质量:包括引用召回率,即回答中的每个事实性陈述是否被对应的引用所支持;引用准确率,即每个引用是否包含了对应陈述的信息,而非无关信息;引用F1值,综合考虑召回率和准确率;引用长度,即每个引用对应文本的长度,长度越短,说明粒度越细、定位越精准.

    • COF是实现LQAC任务的一种方法,二者具体关系如下:

    • COF服务于LQAC任务:LQAC重点在于让模型生成的答案中包含准确的引用,以增强答案的可信度和可验证性。而COF作为一种从粗到细的管道方法,专门被设计用于自动构建带有精确句子级引用的长上下文问答实例,为LQAC任务提供了高质量的数据生成方式.


研究背景

  • 长文本LLMs在回答问题方面能力显著,但回复中缺乏引用,影响用户对其输出的验证,且模型存在幻觉问题,导致可靠性存疑。

  • 现有网络浏览和开放域问答中,让LLMs生成引用的方法在长文本场景存在局限,如RAG方法导致答案质量下降,后处理方法增加用户等待时间,且生成的引用粒度较粗。

研究方法

  • 提出LongBench - Cite基准:用于评估LLMs在带引用的长文本问答(LQAC)任务上的表现,发现当前LLMs在该任务上表现不佳,如开源模型引用质量差,专有模型引用质量也不理想,且生成回复和引用的方式会影响长文本问答性能。

  • 构建CoF管道:利用现成的LLMs自动构建高质量的LQAC数据,包括四个步骤,即生成问答实例、生成块级引用、提取句子级引用和数据过滤。实验验证了CoF在答案正确性和引用质量方面优于其他LQAC策略。

  • 构建LongCite - 45k数据集:使用CoF框架处理50k文档,生成44,600个高质量LQAC实例,用于后续模型训练。

  • 模型训练与实验:使用LongCite - 45k数据集对GLM - 4 - 9B和Llama3.1 - 8B进行微调,训练出LongCite - 8B和LongCite - 9B模型。实验结果表明,这两个模型在引用质量上优于其他模型,且SFT(监督微调)有助于提高长文本问答的正确性,还对模型进行了多方面分析和人工评估。


研究结论

  • 提出的LongBench - Cite基准揭示了当前LLMs在LQAC任务上的不足。

  • CoF管道能有效构建高质量LQAC数据,LongCite - 45k数据集可提升模型生成引用和准确回答问题的能力。

  • 训练的LongCite - 8B和LongCite - 9B模型在引用生成和回答正确性方面表现出色,,有助于开发更可靠的LLMs。


4. 长上下文LLMs时代的RAG:应对信息相关性减弱的挑战

针对长上下文大型语言模型(LLMs)中出现的信息关注点分散问题,本研究提出了一种保持顺序的RAG机制,以改善长上下文问答的表现。虽然随着检索片段数量增加,响应质量先升后降,但存在一个“最佳点”,在此处能以远少于长上下文LLMs的token量实现更高质量的回答

原文地址:https://arxiv.org/abs/2409.01666

“Pandora’s Box or Aladdin’s Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models”这篇论文主要探讨了检索增强生成(RAG)中噪声对大语言模型(LLMs)的影响,具体内容如下:本文主要探讨了在长上下文语言模型时代检索增强生成(RAG)的有效性,提出了顺序保留检索增强生成(OP - RAG)机制,关键内容速读如下:

研究背景

  • 早期大语言模型(LLM)上下文窗口长度有限,RAG是处理大规模上下文语料库的必要选择,但答案质量依赖于检索模型性能。

  • 近期长上下文LLM出现,引发了对RAG必要性的质疑,已有研究表明长上下文LLM在长上下文应用中表现优于RAG。

术语解释
  • 检索增强生成(RAG Retrieval-Augmented Generation:克服短上下文窗口限制的有前景的解决方案,它能引入外部知识,减少幻觉并提高事实准确性。

  • 长上下文LLM:为支持长序列语言模型,已有诸多改进计算效率和提升位置编码扩展性的研究,长上下文LLM出现后,RAG在长上下文问答任务中的必要性受到挑战。

  • 顺序保留RAG(OP - RAG)机制

    • 将长文本上下文分割为多个块,计算查询与块的余弦相似度得到相关性分数,检索相似度最高的前k个块。

    • 与传统RAG不同,OP - RAG保留块在原始文本中的顺序,而非按相似度降序排列。

实验设置

  • 在∞Bench基准的EN.QA和EN.MC数据集上进行实验,使用F1分数和准确率作为评估指标,设置块大小为128个词元,使用BGE - large - env1.5提取查询和块的嵌入。

实验结果

  • 上下文长度对OP - RAG性能影响呈先升后降趋势,因为更多上下文增加获取相关块机会,但过多无关块会干扰模型。

  • 检索块数量较少时,OP - RAG优势不明显,数量大时显著优于传统RAG。

  • 与不使用RAG的长上下文LLM相比,OP - RAG能显著减少词元数量且提高答案质量;与SELF - ROUTE机制相比,OP - RAG在输入词元更少的情况下表现更优。

结论

  • 长上下文LLM的极长上下文可能导致对相关信息关注减少,降低问答任务答案质量,OP - RAG机制可提高RAG在长上下文问答应用中的性能,高效检索和聚焦上下文利用优于处理极长上下文的暴力方法。


同桌的AI小纸条
一个专注于将先进的AI人工智能技术融入日常生活的频道。关注让AI为我们所用,探索人工智能领域的无限可能,并征服他们,让AI赋能生活快乐每一天!
 最新文章