LeReT：利用多跳检索与强化学习克服大模型“幻觉”

文摘 2024-11-02 12:55 北京

当前，使用 LLM 问答类应用时，最让人困扰的就是无法知道它的回答是否真实可靠，为了避免“掉坑”，在对于一些很严谨的问题上，用户更愿意使用传统搜索。今天，我们要介绍一种名为 LeReT（Learning to Retrieve by Trying）的技术，它通过强化学习显著提升大型语言模型（LLM）的检索能力，克服“幻觉”，让 AI 的回答更加靠谱。

什么是 LeReT？

LeReT^[1] 是一个基于强化学习的框架，旨在增强 LLM 的检索能力，使其生成的答案更加可靠。通过将答案建立在人类生成和验证的数据之上，LeReT 成功地将检索准确率提高了 29%，下游生成评估提升了 17%。简单来说，其原理就是通过不断尝试和优化查询，使 LLM 能够更准确地检索到相关信息，从而减少幻觉现象。该框架具有高度的灵活性，它将检索视为一个黑盒，这意味着通用算法适用于任何工具和奖励函数。因此，LeReT 可以扩展到通用代理系统或 LLM 流程中。

多跳检索与强化学习

减少幻觉是提升 LLM 生成答案可信度的关键。将答案建立在人类验证的数据之上是一个自然的解决方案，但捕捉相关事实却颇具挑战。LeReT 通过让 LLM 根据用户问题查询相关事实，并学习提升那些能带来相关信息查询的权重，从而提高检索准确率和下游生成评估。

多跳检索是 LeReT 的核心技术之一，通过多次查询不同信息源，逐步逼近正确答案。例如，在回答“谁是美国的现任总统？”时，LeReT 会先检索相关新闻，再进一步确认最新信息。

LeReT 如何工作？

多样化查询生成：LeReT 首先生成一系列多样化的查询。它通过DSPy优化的少样本提示（few-shot prompts）来激发模型生成多样的，高奖励的样本。
奖励计算：根据检索到的文档，LeReT 计算出一个奖励值。这个奖励值用于评估查询的有效性。
模型训练：通过标准 SFT（Supervised Fine-Tuning）步骤和 IPO（Interleaved Preference Optimization）训练，LeReT 不断优化 LLM 的查询生成能力。

LeReT 特别适用于多跳检索场景。例如，当用户提出一个复杂问题时，LLM 首先生成查询以检索相关文档，然后基于这些文档生成后续查询，最终生成答案。

实验结果

LeReT 在 HotpotQA 和 HoVer 数据集上进行了测试，使用了 Llama 3 8b 和 Gemma 2 9b 基础模型。实验结果显示，LeReT 在这两个数据集和基础模型上都显著提高了检索准确率和生成质量。

具体数据如下图所示：

结论

LeReT 通过强化学习显著提升了 LLM 的检索能力，减少了幻觉，使 AI 的回答更加靠谱，这将更有利于 RAG 类应用产品的落地，特别是在生成式检索，智能客服，内容审核，教育辅助等场景中拥有广阔的前景。

参考资料

[1]

LeReT: https://arxiv.org/pdf/2410.23214

后台回复“入群”进群讨论。

http://mp.weixin.qq.com/s?__biz=MzA5MTIxNTY4MQ==&mid=2461147930&idx=1&sn=9e4f300b79ee428157f329bfa50df6fe

AI工程化

专注于AI领域（大模型、MLOPS/LLMOPS 、AI应用开发、AI infra）前沿产品技术信息和实践经验分享。

最新文章

特朗普强势回归，AI行业迎春风：科技巨头“投诚”，马斯克重任在肩

TextIn：一款优秀的 PDF文档解析神器，提升RAG性能必备

Integuru：大模型加持，一键生成第三方集成代码，解放开发者双手

马斯克旗下xAI API开放，每月$25免费额度激励开发者！

50K*16薪，进字节了！

pdf-extract-api：可本地化运行的高效处理隐私文档的神器

openai-captcha-detection :号称在OpenAI模型加持下，可100%正确识别验证码

Selenium x Claude 造就AI驱动的浏览器自动化神器——Cerebellum

ChatGPT o1完整版本泄露：功能强大引热议，莫非又是营销天才Sam Altman故意为之？

AMD使用自家GPU集群发布首个 1B 参数语言模型 AMD OLMo

LeReT：利用多跳检索与强化学习克服大模型“幻觉”

AirLLM：突破显存限制，让 4GB GPU 也能运行 70B 大模型

超越v0chat，开源的AI前端开发神器——screenshot-to-code

Anthropic提出的Contextual RAG开源实现Open Contextual RAG来了

Claude 3.5 Sonnet登陆Github，Cursor亚历山大

chromem-go：零依赖嵌入式向量数据库，Go 开发者的新宠！

RAGChecker:显著超越RAGAS，一个精细化评估和诊断 RAG 系统的创新框架

微软 OmniParser：超越GPT4V的视觉屏幕界面解析利器

为什么大模型会算错“9.11与9.8谁大？”，这个可观测工具帮你一探究竟

Meta 发布 Llama 3.2 1B和3B版本：推理速度翻倍，模型更轻

探索 Claude Artifacts 的无限可能：一周内构建的14个实用工具

最快体验 Claude 3.5 Sonnet 控制电脑方法来了！

国内首部AI知识产权标准启动编制，诚邀科技企业、律所律师、知产服务机构参编！

Transformers.js v3震撼发布：WebGPU加速、120种架构支持，开发者必备神器！

mPLUG-DocOwl 1.5：无需 OCR 原生理解解析各种结构文档

开源向量数据库性能对比: Milvus, Chroma, Qdrant

重磅消息：Claude 3.5 系列模型大更新及革命性增加计算机使用能力

AIGC利器ComfyUI V1 发布：简化安装，跨平台支持，非技术用户福音

每天写代码：Jquery作者John Resig透露程序员高产秘诀

超简单！手把手从零构建神经网络

StructRAG：超越GraphRAG，知识密集型 RAG 性能提升的新思路

一个 Python 文件实现 Perplexity 搜索?

Agora 协议:打造Agent互联网的第一步

Zerox：gpt-4o-mini 加持的零配置高效 OCR 神器

OpenAI：AI不仅仅对你名字有偏见，这些方面也差别对待

Google AI 助手 NotebookLM 正式发布：多模态理解能力大幅提升

Mistral AI 发布革命性边缘模型 Ministral 3B 和8B：性能与隐私双料俱佳

NVIDIA 发布 Llama 3.1 70B 模型：性能超越 Claude 3.5 和GPT-4o

Ollama 平台新功能：轻松运行 Hugging Face Hub 上的 GGUF 模型

AI 能自查幻觉了！谷歌苹果联手打造“真话检测器”

AutoGen: 我也能实现OpenAI Swarm中的handoff

Mem0上架chrome插件商店，把记忆交给AI！

A16Z：导出"你的大脑"给AI,你将收获什么？

Meta：无需人工标注，LLM 评估器也能自我提升？

非广告免费使用Qwen2.5 72B等付费模型的方法来了，很实用！

为什么 AI 在数学题前抓瞎？苹果研究揭示 AI 推理能力的局限性

Swarm：一个OpenAI开源的multiAgent框架，简单哲学的代表

Python 3.13.0 震撼发布：性能飞跃，AI 项目迎来新机遇

Dario Amodei 最新博文预言我们这代人将有可能活到150岁！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉