哎,说千道万,RAG 是个基本功

职场   2025-01-27 10:10   北京  
在朋友圈看到一篇讲百度面向大模型 RAG 设计的 AI 原生检索系统的文章,不得不感叹百度这家公司在技术方面的积累。RAG 技术估计大家都已经不陌生,大模型火热的这几年,它成为了高频词。
大模型本质上是一个 Next Token Prediction 的模型,也就是不断预测下一个 Token ,所有的东西都基于此而来。所以不论是模型大了,还是推理快了,最后都是生成一个一个的 Token,并且,每一个已经生成的 Token 都会影响下一个 Token 的生成。

当你理解这一点的时候,就能理解所谓的模型就是一个概率机器——同样的 Prompt 会产生不同的答案。这也就带来了我们常说的幻觉问题。

而目前,解决幻觉问题最通用的方法就是 RAG。RAG 通过结合检索系统和大模型生成能力,来弥补纯生成模型的不足。它的大致原理是从向量数据库等系统中找到与用户问题最相关的信息片段,然后再把这些片段当成输入,一起喂给大模型。

比如问“2025 年新能源车补贴政策”,RAG 会检索最新文件,并让它来辅助大模型回答问题。由于有了更准确的上下文信息,而非只是依赖模型过时知识,所以,大模型生成的答案也就能一定程度上避免了凭空编造。可以这么说,RAG 的能力直接影响了大模型输出质量的好坏。

现在,随着大模型应用深化,RAG 技术也在不断发展。最新的 RAG 架构是组件化 RAG(Modular RAG),传统 RAG 像一位只懂机械检索的图书管理员——你问“新能源汽车”,他只能按字面意思扔出几本书,如果书单漏掉关键证据,那也束手无策。

而 Modular RAG 更像是一支高效协作的学术团队:检索专家从多角度找书(关键词、语义联想、知识图谱),过滤员剔除低质内容,逻辑顾问串联不同领域的证据链。它能够灵活调兵遣将,每个环节相对独立,具备了“查缺补漏”的能力。百度用的就是这个 RAG 架构。

如果我们追根溯源,检索增强早在百度 2023 年 3 月发布文心一言的时候就已经提出来。现在将近两年时间过去了,检索增强的价值,从百度最早推出到现在已经成为业界共识。百度检索增强技术深度融合大模型能力和搜索系统,构建了“理解-检索-生成”的协同优化技术。
去年十一月,百度 CTO 王海峰曾经在百度世界大会中提到了百度缓解大模型幻觉的关键就是得益于这套增强检索技术。
简单来说,“理解”就是拆解知识点,充分理解用户的需求;“检索”就是找到最合适的信息,然后进行搜索排序优化,并将搜索返回的异构信息统一表示,再送给大模型;“生成”阶段会综合不同来源的信息做出判断,并基于大模型逻辑推理能力,解决信息冲突等问题,最后生成准确率高、时效性好的答案。
可以说,百度的检索增强技术提升了大模型技术及应用的效果。

数据层面,百度作为全球最大的中文搜索引擎,过去积累了非常海量的数据、知识图谱、知识库以及实时数据整合能力等。这部分能力中,有些可以复用,有些则需要调整。比如对于大语言模型而言,人类易读的搜索结果内容却不便于模型对内容抽取和理解。

于是,在既有的技术框架和模块化 RAG 架构的基础上,百度打造了一套可以处理搜索需求和大模型检索增强需求的 AI 原生的检索系统 AIAPI,它可以为模型生成提供更优质检索结果,并且兼顾资源利用率、响应速度和运行效率。不得不说,百度在 AI 技术方面的积累,真的让人敬佩。确实是一家认真做技术的公司。

第一,在召回和排序层,AIAPI 基于流量、接口控制参数,提供了多个套餐组合,这样需求方可以根据自己的场景定制最合适的套餐组合。非常灵活。

第二,数据层的主要功能是对不同的流量来源做不同路由控制和数据加工。AIAPI 通过使用图引擎实现对不同流量的隔离和定制化数据处理。同时增加网页内容获取的能力,添加对结果类型的筛选和数据组织能力。

第三,因为搜索产品的前端数据渲染和大模型完全不一样,所以把展现层拆分为了用户数据渲染和 AIAPI 数据接口。这样解耦后,AIAPI 又能够提供基于用户的鉴权、流控、特征管理等能力。

以上,我说的只是冰山一角。如果你在做 RAG 相关的落地,那我强烈推荐你看看百度技术团队的这篇文章。从技术架构图上我们能够看出来,百度把大模型和搜索放到了一个整体的框架之下,该复用的复用,该独立迭代的独立迭代。正因为大模型和搜索是联合优化的,所以,文心一言在专业性比较强或者小众的需求上也能够表现得比较出色。

比如,我问文心一言和 Kimi 同样的问题,你看看区别。问题是:“持中国护照去塞班旅游需要签证吗?可以的话,请提供相关资料。”其中,第一个截图是文心一言,第二个是 Kimi。从截图你能感受到,文心一言的回答更具结构性,言简意赅的把我需要知道的信息全部列了出来。

(文心一言的回答)

(Kimi 的回答)

第二个问题:董宇辉全网有多少粉丝?

(Kimi 的回答)

(文心一言的回答)
白色的截图是文心一言,它准确无误地给出了董宇辉的粉丝数。而 Kimi 则是引用了另外一篇不准确的文章中的数据。最后的结果自然也就错了。我手动查了下,文心一言应该是去董宇辉的抖音页面拿了最新的数据。
继续问:“苹果和华为,谁在国内的市场前景好?”下面是他们的回答。

(Kimi 的回答)

(文心一言的回答)
Kimi 说的是片汤话,谁都好,谁都很厉害,没有明确的态度。文心一言则直接很多,它认为华为更好,并给出了自己的判断逻辑。其实类似的场景中,我最怕的就是大模型说了一堆,然后和没说一样。没有观点的回答对我没有价值。
继续问:上海近五年的 GDP 以及 GDP 增速。这个问题上,Kimi 没有找到 2023 年之前的 GDP 数据,却给出了增速。展示结构上,二者都使用了结构化的方式呈现了具体的变化。
(文心一言的回答)
(Kimi 的回答)
当然,以上只是我放出来的部分问题截图。有的问题上,Kimi 的表现也很好。为了对比,我只放了有差异性的部分。总体来看,文心一言在专业性、观点和结构化方面的生成能力都更优。我判断这和百度的 RAG 技术能力有直接关系。
RAG 技术是大模型的基本功。从测评中,我们能看到 RAG 技术对大模型结果的影响。虽然大家说起来这个技术特别简单,好像接一个向量数据库,然后再有合适的提示词,一切就搞定了。但今天我看到百度的这套技术架构,才知道它的技术壁垒在哪里。

说到底,大模型拼到最后,技术的较量是根本。


MacTalk
墨问西东出品。在这里,我们聊互联网、职场、管理、创业、产品、软硬件、内容创作、人物、摄影等…… 不做快餐,用文字酿一杯葡萄酒,沉醉,回味悠长。
 最新文章