TaD+RAG-缓解大模型“幻觉”的组合新疗法

科技 2024-07-22 17:01 北京

前言
本文入选顶会IJCAI2024，京东技术团队联合清华大学提出缓解大模型“幻觉”新技术！
ChatGPT的横空出世标志着人工智能正式进入大模型时代，大模型也正逐步成为推动企业发展的新引擎。然而，大模型带来无与伦比创造力的同时，其“幻觉”，即“胡说八道”的坏毛病也让大批应用者苦不堪言。业内主要通过检索增强生成（RAG）技术，通过引入并检索第三方知识库缓解幻觉。但即便召回正确的信息，大模型依然可能因为自身幻觉生成错误结果，所以缓解大模型本身的幻觉也极其重要。
京东技术团队联合清华大学提出任务感知解码技术（Task-aware Decoding，TaD），通过对比有监督微调前后的输出，缓解LLM本身的幻觉；该方法通用性强，即插即用适应多种大模型结构、微调方法、下游任务。与此同时，项目团队在知识问答业务上进行落地实践，充分证明TaD+RAG是缓解LLM幻觉的最佳组合疗法。欢迎关注转发～
TaD：任务感知解码技术（Task-aware Decoding，简称TaD），京东联合清华大学针对大语言模型幻觉问题提出的一项技术，成果收录于IJCAI2024。
RAG：检索增强生成技术（Retrieval-augmented Generation，简称RAG），是业内解决LLM幻觉问题最有效的系统性方案。

背景介绍

理解，首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板，当获取到模板后进行模板加载，加载阶段会将产物转换为视图树的结构，转换完成后将通过表达式引擎解析表达式并取得正确的值，通过事件解析引擎解析用户自定义事件并完成事件的绑定，完成解析赋值以及事件绑定后进行视图的渲染，最终将

近来，以ChatGPT为代表的生成式大语言模型（Large Language Model，简称LLM）掀起了新一轮AI热潮，并迅速席卷了整个社会的方方面面。得益于前所未有的模型规模、训练数据，以及引入人类反馈的训练新范式，LLM在一定程度上具备对人类意图的理解和甄别能力，可实现生动逼真的类人对话互动，其回答的准确率、逻辑性、流畅度都已经无限接近人类水平。此外，LLM还出现了神奇的“智能涌现”现象，其产生的强大的逻辑推理、智能规划等能力，已逐步应用到智能助理、辅助创作、科研启发等领域。京东在诸多核心业务如AI搜索、智能客服、智能导购、创意声称、推荐/广告、风控等场景下，均对LLM的落地应用进行了深入探索。这一举措提升了业务效率，增强了用户体验。

尽管具备惊艳的类人对话能力，大语言模型的另外一面——不准确性，却逐渐成为其大规模落地的制约和瓶颈。通俗地讲，LLM生成不准确、误导性或无意义的信息被称为“幻觉”，也就是常说的“胡说八道”。当然也有学者，比如OpenAI的CEO Sam Altman，将LLM产生的“幻觉”视为“非凡的创造力”。但是在大多数场景下，模型提供正确回答的能力至关重要，因此幻觉常常被认为是一种缺陷；尤其是在一些对输出内容准确性要求较高的场景下，比如医疗诊断、法律咨询、工业制造、售后客服等，幻觉问题导致的后果往往是灾难性的。

本文主要探索针对LLM幻觉问题的解决方案。

技术突破

通过以上分析，RAG无疑是治疗LLM幻觉的一副妙方，它如同LLM的一个强大的外挂，让其在处理事实性问题时如虎添翼。但RAG的最终输出仍然由LLM生成，缓解LLM本身的幻觉也极为重要，而目前业内针对LLM本身幻觉的技术方案存在成本高、实用落地难、易引入潜在风险等问题。

鉴于此，京东零售联合清华大学进行相关探索，提出任务感知解码（Task-aware Decoding，简称TaD）技术^[12]（成果收录于IJCAI2024），可即插即用地应用到任何LLM上，通过对比有监督微调前后的输出，缓解LLM本身的幻觉。该方法通用性强，在多种不同LLM结构、微调方法、下游任务和数据集上均有效，具有广泛的适用场景。

任务感知解码（TaD）技术

关于LLM知识获取机制的一些研究表明，LLM的输出并不能总是准确反映它们所拥有的知识，即使一个模型输出错误，它仍然可能拥有正确的知识^[13]。此项工作主要探索LLM在保留预训练学到的公共知识的同时，如何更好地利用微调过程中习得的下游任务特定领域知识，进而提升其在具体任务中的效果，缓解LLM幻觉。

TaD的基本原理如图3所示。微调前LLM和微调后LLM的输出词均为“engage”，但深入探究不难发现其相应的预测概率分布发生了明显的改变，这反映了LLM在微调期间试图将其固有知识尽可能地适应下游任务的特定领域知识。具体而言，经过微调，更加符合用户输入要求（“专业的”）的词“catalyze”的预测概率明显增加，而更通用的反映预训练过程习得的知识却不能更好满足下游任务用户需求的词“engage”的预测概率有所降低。TaD巧妙利用微调后LLM与微调前LLM的输出概率分布的差异来构建知识向量，得到更贴切的输出词“catalyze”，进而增强LLM的输出质量，使其更符合下游任务偏好，改善幻觉。

图3. TaD原理图

知识向量

为了直观理解LLM在微调阶段学习到的特定领域知识，我们引入知识向量的概念，具体如图4所示。微调前LLM的输出条件概率分布为pθ，微调后LLM的输出条件概率分布为 pϕ。知识向量反应了微调前后LLM输出词的条件概率分布变化，也代表着LLM的能力从公共知识到下游特定领域知识的适应。基于TaD技术构建的知识向量可强化LLM微调过程中习得的领域特定知识，进一步改善LLM幻觉。

图4. 知识向量

特别地，当微调数据较少时，LLM的输出条件概率分布远远达不到最终训练目标。在此情形下，TaD技术增强后的知识向量可以加强知识对下游任务的适应，在训练数据稀缺场景下带来更显著的效果提升。

实验结果

1）针对不同的LLM，采用LoRA、AdapterP等方式、在不同的任务上进行微调，实验结果如下表1和表2所示。注意到，TaD技术均取得了明显的正向效果提升。

表1. Multiple Choices和CBQA任务结果

表2. 更具挑战性的推理任务结果

2）相比较其他对比解码技术，TaD技术在绝大部分场景下效果占优，具体如表3所示。需要特别强调的一点是，其他技术可能会导致LLM效果下降，TaD未表现上述风险。

表3. 不同对比解码技术结果

3）针对不同比例的训练样本进行实验，发现一个非常有趣的结果：训练样本越少，TaD技术带来的收益越大，具体如表4所示。因此，即使在有限的训练数据下，TaD技术也可以将LLM引导到正确的方向。由此可见，TaD技术能够在一定程度上突破训练数据有限情形下LLM的效果限制。

表4. 不同数据比例下的结果

可见，TaD可以即插即用，适用于不同LLM、不同微调方法、不同下游任务，突破了训练数据有限的瓶颈，是一项实用且易用的改善LLM自身幻觉的技术。

落地案例

自从以ChatGPT为代表的LLM诞生之后，针对其应用的探索一直如火如荼，然而其幻觉已然成为限制落地的最大缺陷。综上分析，目前检索增强生成（RAG）+低幻觉的LLM是缓解LLM幻觉的最佳组合疗法。在京东通用知识问答系统的构建中，我们通过TaD技术实现低幻觉的LLM，系统层面基于RAG注入自有事实性知识，具体方案如图5所示，最大程度缓解了LLM的生成幻觉。

图5. TaD+RAG的知识问答系统

思考与展望

如果LLM依然按照语言模型的模式发展，那么其幻觉就无法彻底消除。目前业内还没有一种超脱语言模型范畴，且可以高效完成自然语言相关的任务新的模型结构。因此，缓解LLM的生成幻觉，仍然是未来一段时期的探索路径。以下是我们在系统、知识、LLM三个层面的一些简单的思考，希望能够抛砖引玉。

系统层面——RAG+Agent+More的复杂系统

RAG技术确实在一些常见的自然语言处理任务中发挥出色的作用，尤其是针对简单问题和小型文档集。但是遇到一些复杂的问题和大型文档集时，RAG技术就显得力不从心。近期有一些研究认为RAG+Agent才是未来的趋势[14]，Agent能够辅助理解并规划复杂的任务。我们认为可能未来的系统可能不仅仅局限于Agent和RAG，可能还要需要多种多样的内外工具调用、长短期记忆模块、自我学习模块......

知识层面——与LLM深度融合的注入方式

任何一个深度模型都会存在知识边界的问题，LLM也不例外。RAG通过检索的方式召回外部知识，以Prompt的形式送入LLM进行最终的理解和生成，一定程度上缓解LLM知识边界问题。但是这种知识注入的方式和LLM生成的过程是相对割裂的。即便已经召回了正确的知识，LLM也可能因为本身知识边界问题生成错误的回答。因此探索如何实现外部知识和LLM推理的深度融合，或许是未来的一个重要的课题。

LLM层面——低幻觉LLM

LLM本身的幻觉是问题的根本和瓶颈，我们认为随着LLM更广泛的应用，类似TaD可缓解LLM本身幻觉的探索一定会成为业内的更大的研究热点。

落地案例

缓解LLM幻觉一定是个复杂的系统问题，我们可以综合不同的技术方案、从多个层级协同去降低LLM的幻觉。虽然现有方案无法保证从根本上解决幻觉，但随着不断探索，我们坚信业内终将找到限制LLM幻觉的更有效的方案，也期待届时LLM相关应用的再次爆发式增长。

京东零售一直走在AI技术探索的前沿，随着公司在AI领域的不断投入和持续深耕，我们相信京东必将产出更多先进实用的技术成果，为行业乃至整个社会带来深远持久的影响。

【参考文献】

[1] Hallucination is Inevitable: An Innate Limitation of Large Language Models

[2] A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

[3] Unveiling the Causes of LLM Hallucination and Overcoming LLM Hallucination

[4] Editing Large Language Models: Problems, Methods, and Opportunities

[5] ACL 2023 Tutorial: Retrieval-based Language Models and Applications

[6] Theoretical Limitations of Self-Attention in Neural Sequence Models

[7] Sequence level training with recurrent neural networks.

[8] Discovering language model behaviors with model-written evaluations

[9] Dola: Decoding by contrasting layers improves factuality in large language models

[10] Bert rediscovers the classical nlp pipeline

[11] Retrieval-Augmented Generation for Large Language Models: A Survey

[12] TaD: A Plug-and-Play Task-Aware Decoding Method toBetter Adapt LLM on Downstream Tasks

[13] Inference-time intervention: Eliciting truthful answers from a language model

[14] Beyond RAG: Building Advanced Context-Augmented LLM Applications

推荐阅读

看完这篇，你的API服务设计能力将再次进化!

数字化时代的数据管理：多样化数据库选型指南

京东.Vision首登苹果Vision Pro 背后的技术探索

托寄物智能识别——大模型在京东快递物流场景中的应用与落地

打SAS化服务的会员徽章体系，可以作为标准的产方👇 点击”阅读原文“查看技术类精选书单案统一对外输出。结合现有平台通用能力，实现会员行为全路径覆盖，并能结合企业自身业务特点，规划相应的会员精准营销活动，提升会员忠诚度和业务的持续增长。

▪

底层能力：维护用户基础数据、行为数据建模、用户画像分析、精准营销策略的制定

▪功能支撑：会员成长体系、等级计算策略、权益体系、营销底层能力支持

▪用户活跃：会员关怀、用户触达、活跃活动、业务线交叉获客、拉新促活

http://mp.weixin.qq.com/s?__biz=MzU1MzE2NzIzMg==&mid=2247495825&idx=1&sn=5a21989271522fbbf16e9632acb1fa2e

京东技术

京东官方技术分享平台。你想知道的京东前沿技术、创新思考、开源方案...这里应有尽有！

最新文章

揭秘JDQ限流架构：实时数据链路的多维动态带宽管控|京东零售技术实践

简洁至上——探索产品与技术的优雅原则

走进京东零售广告研发部：大模型时代下的新一代广告系统

基于大模型搭建的运力智能机器人

AIGCDesign——开放式跨端AI组件解决方案

1024节日快乐 | 京东技术人的N种可能

2024中国计算机大会，我们在现场！

揭秘动态化跨端框架在鸿蒙系统下的高性能解决方案

京东金融APP的鸿蒙之旅：技术、挑战与实践

鸿蒙跨端实践-长列表解决方案和性能优化

给Java同仁单点的AI"开胃菜"--搭建一个自己的本地问答系统

防御性编程：让系统坚不可摧

一位架构师的自述：在尚未踏入的世界成为你自己

史无前例！移植V8虚拟机到纯血鸿蒙系统

整洁架构演进之路——京东广告投放平台实战

鸿蒙跨端实践-布局方案介绍

【黄金圆环】在研发领域的实践分享

京东鸿蒙上线前瞻——使用 Taro 打造高性能原生应用

买药秒送 JADE动态线程池实践及原理浅析

业务复杂度治理方法论--十年系统设计经验总结

万字长文浅谈三高系统建设方法论和实践

Proxyless的多活流量和微服务治理

京东搜索重排：基于互信息的用户偏好导向模型

AI大模型快速生成题库-助力业务人效提升10+倍

京东秒送LBS容灾数据备份实战

【京东保险-技术平台部-平台研发部】一群AI卖保险的程序员

一文了解MySQL索引机制

「重构：改善既有代码的设计」实战篇

不只是前端，后端、产品和测试也需要了解的浏览器知识（二）

京东集团项目管理人才发展通道代表受邀参加第三届中国PMO&PM大会

高并发系统的艺术：如何在流量洪峰中游刃有余

引入JaCoCo导致的类型转换问题分析

如何手搓一个自定义的RPC（远程过程调用框架）

让大模型在产业先跑起来，京东云八大产品全面亮相

从C端到B端：我的前端技术进阶之路

记一次大库大表的治理过程

互动有礼 | 从校招新星到前端技术专家的成长之路

Code Review：提升代码质量与团队能力的利器

京东百万级调度系统(Buffalo)架构解密

TaD+RAG-缓解大模型“幻觉”的组合新疗法

看完这篇，你的API服务设计能力将再次进化!

数字化时代的数据管理：多样化数据库选型指南

京东.Vision首登苹果Vision Pro 背后的技术探索

动态线程池思想学习与实践

托寄物智能识别——大模型在京东快递物流场景中的应用与落地

Java开发者LLM实战——使用LangChain4j构建本地RAG系统

AI绘图实践-用人工智能生图助力618大促

万字长文浅谈系统稳定性建设

进程还在，JSF接口不干活了，这你敢信？

生成式推荐系统与京东联盟广告-综述与应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

TaD+RAG-缓解大模型“幻觉”的组合新疗法

前言

背景介绍

相关调研

2.1 数据引入的幻觉

2.2 模型训练引入的幻觉

2.3 推理过程引入的幻觉

技术突破

落地案例

思考与展望

落地案例