今天是2024年12月02日,星期一,北京,天气晴。
本文来看两个话题,一个是索增强图像生成的一个思路RAGDiffusion,也顺便回顾下昨日早报进展,一个是引入多轮对话方式的AUTO-RAG迭代式检索思路。
供各位参考,多思考,多总结,多实践;
一、检索增强图像生成的一个思路RAGDiffusion
我们来看看昨日大模型相关的一些进展,为社区每日例行活动:
有几个点比较有趣。 1、使用LLM进行标书写作简单开源项目及openai O1实现思路再索引,https://mp.weixin.qq.com/s/jP00sy_wicIJ1wPSafskIA,https://github.com/William-GuoWei/ProposalLLM,根据excel里的需求列表,利用大模型的能力自动生成word版的标书文件;
2、关于大模型推理,这个有点意思,LLMs Do Not Think Step-by-step In Implicit Reasoning,https://arxiv.org/abs/2411.15862,依赖更长的结果来引导总体的准确性,以满足推理的整体平衡;
3、端侧模型进展,GLM-Edge端侧大语言模型系列,包含1.5B/4B的对话模型和2B/5B的多模态模型,针对手机、车机等端侧场景优化,在骁龙8 Elite平台上可达到每秒60+ tokens的解码速度: https://github.com/THUDM/GLM-Edge;
4、关于UI类的agent,ShowUI一个轻量级的视觉-语言-动作模型,专门用于GUI智能代理,ShowUI: One Vision-Language-Action Model for GUI Visual Agent: https://github.com/showlab/ShowUI;
5、关于大模型自我纠错相关论文的精选集合,LLM-Self-Correction-Papers,涵盖内在自我纠错、外部工具辅助纠错、信息检索辅助纠错等, https://github.com/ryokamoi/llm-self-correction-papers,目前OpenaiO1这些,以及很多RAG的工作,都会使用Reflection的机制,所以这块的一些技术综合总结;
6、在语言文化资源微调数据进展,NCIFD项目,https://github.com/letsgoLakers/NCIFD/ ,公开10,000条数据,涵盖建筑、服饰、工艺、饮食、礼仪、语言、习俗七大领域的内容;
7、产业进展,关于文档助手,腾讯文档3.9.0版本升级AI文档助手,增强了文档总结、深度阅读、智能配图等功能,提升用户阅读与创作效率;新增PPT生成、长文创作支持,用户可快速生成大纲并创建专业内容,简化工作流程;强化内容搜索功能,优化腾讯文库和互联网上的信息检索,提供更广泛的资源与创作支持。https://mp.weixin.qq.com/s/4XbjIn3r4SBMWz5R-jEvBw
此外,之前百度有说过IRAG,用来做检索增强图像生成,所以,顺便可以看看这个工作《RAGDiffusion: Faithful Cloth Generation via External Knowledge Assimilation》(https://arxiv.org/pdf/2411.19528),称为RAGDiffusion,通过吸收外部知识来增强结构确定性和减少幻觉,从而生成高质量的标准服装图像。
可以看看其实现思路:
这块没看太懂,所以就不做过多解释了,各位可细看原文。
二、引入多轮对话方式的AUTO-RAG迭代式检索思路
如何在不需要人工干预的情况下,自动决定何时以及检索什么信息;如何有效地利用LLMs的推理和决策能力来优化检索策略。目前RAG的思路基本上都是采用这些来做的。
在解法上,常用的方法是检索增强生成(RAG)方法,如Retrieve-Read框架;迭代检索方法,如ITER-RETGEN和FLARE;以及自我反思(Self-RAG)方法。
《AUTO-RAG: AUTONOMOUS RETRIEVAL-AUGMENTED GENERATION FOR LARGE LANGUAGE MODELS》(https://arxiv.org/pdf/2411.19443),核心思路是多轮对话迭代式RAG,通过与检索器进行多轮对话,系统地规划检索并细化查询,在每次迭代中进行推理,确定是否需要进一步检索以及需要检索的具体信息,推理过程包括检索规划、信息提取和答案推断。
但是,这个的核心,一个是是场景问题,这个做的是多跳场景的问题,所以转换为多轮对话,如Auto-RAG通过与检索器进行多轮对话,系统地规划检索和细化查询,以获取有价值的知识,这个过程一直持续到收集到足够的外部信息为止。但这一块其实很不可控,由于检索器和检索语料库的限制,Auto-RAG在某些情况下可能无法获取回答问题的必要知识,导致无限次迭代。
另一个是这个底层是依赖于大模型的判定能力,在每次迭代中,LLM根据当前状态进行推理,确定是否需要进一步的检索以及检索的具体信息。LLM生成查询并根据检索到的文档进行信息提取和答案推断。
细分下来就是:
检索规划能力,LLM需要明确识别解决查询所需的知识和进一步检索的具体信息。这意味着LLM在每次迭代开始时,都会评估当前已有知识的不足,并决定需要检索哪些新信息。
信息提取能力,一旦LLM收到检索到的文档,它需要从中提取解决问题的关键信息。这一步骤类似于人类在阅读文档时的信息筛选过程,旨在去除无关信息,保留有用内容。
答案推断能力,在收集到所有相关信息后,LLM使用推理来形成最终答案。这一步骤确保LLM能够基于现有信息生成准确且合理的答案,避免生成虚假信息。
此外,对于复杂的多跳问题,Auto-RAG会启动更多的迭代次数,以便逐步收集和整合跨多个步骤的知识。
所以,为了解决这个问题,构建了一个微调训练数据集,思路如下:
用于指导LLMs在迭代检索中进行推理和查询细化,最终收敛于正确答案。但这块很容易陷入到数据集过拟合的风险中。
总结
本文主要围绕两个话题进行了介绍,分别是索增强图像生成的一个思路RAGDiffusion以及引入多轮对话方式的AUTO-RAG迭代式检索思路。具体的细节,各位有兴趣可看原文,会有更多收获。
参考文献
1、https://arxiv.org/pdf/2411.19443
2、https://arxiv.org/pdf/2411.19528
3、https://mp.weixin.qq.com/s/jP00sy_wicIJ1wPSafskIA
关于我们
老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入