OCR噪声对RAG性能的影响分析：兼谈公众号文章的价值正确定位

文摘 2025-01-07 11:42 北京

今天是2025年01月07日，星期二，北京，天气晴。

今天是腊八节。

最近观察到一个很奇怪的现象，就是越来越多人看不懂公众号文章，但并不会去翻开原文去做进一步的查阅，这其实很要不得的。

这也引出了老刘想跟大家说的话，大家一定要重视，不要总看公众号，看公众号爽文没意义，一定要看论文原文，看blog原文，看github原文，公众号的意义是基本过滤+索引指引，不是知识学习，这个要记清楚，我们想要的的细节和答案，都在原论文，原博客，原代码里。老刘在写文章时，都会注明技术点或者论文出处，这个其实是一个基本功能，那就是索引。

”基本过滤+索引指引“是公众号为数不多的知识价值(所以也呼吁大家写的时候，能够有这种意识，增加出处)，前者可以作为一个基本概要，供不同的人，根据自身的兴趣点进行过滤，哪些应该进一步跟进，那些应该直接跳过。后者则给出一个指引，这样能够作为一个纽带，给看文章的人找到对应的链接。而除此之外，公众号文章剩余的价值，其实只是情绪价值，是一种娱乐属性。泛泛而谈的这种，对于很深入的了解一个技术点，或者体系化的知识，公众号并不是一个很好的的来源，反而会加剧盲区化。

今天，我们继续来看RAG，看看RAG的噪声问题，并看OCR的问题对于RAG的影响。

专题化，体系化，会有更多深度思考。大家一起加油。

一、从RAG的噪声说起

RAG总会遇到很多的噪声问题，而噪声的标准其实并不一致，例如，InfoRAG(《Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation》, https://arxiv.org/pdf/2402.18150)将检索文本中的这种噪声描述为错误和不相关内容，并揭示了其对RAG性能的影响。

RAAT(《Enhancing noise robustness of retrieval-augmented language models with adaptive adver sarial training》,https://arxiv.org/pdf/2405.20978)进一步将噪声分为相关噪声、反事实噪声和不相关内容类型。

但是除了这方面，其实还有数据生产阶段的产生的噪声，这个是一手噪声。放眼目前的方案，大多是逃不出ocr的范畴的。

我们顺便再来回顾下当前OCR的一些方案，可以分为三类：基于pipeline的系统、端到端模型以及使用VLMs进行OCR。其中：基于pipeline的系统将OCR分解为多个子任务，如布局检测、文本、公式和表格识别，从而实现细粒度的数据提取。端到端模型以文档图像为输入，并以端到端的方式输出整体识别结果。

二、现有OCR这块的效果对RAG的影响是如何的？

这块做以下还是有意义的，例如最近的工作《OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation》(https://arxiv.org/pdf/2412.02592，https://github.com/opendatalab/OHR-Bench），里面提到几个数据集，对于我们做文档方面的工作还是有些意义的。

例如，可以做ocr现有不同组件的评估，包括来自各个领域的4000多个非结构化PDF页面，包括教科书、法律、金融、报纸、手册和学术界以及来自多模态文档元素的问答数据集。每个PDF页面都配备了经过人工验证的真实结构化数据；

又如，可以用来评估引入语义噪声和格式噪声，并根据现实世界的OCR误差引入了轻度、中度和重度扰动后，现有rag系统的影响面。就如该工作所说的，有端到端的方式，也有pipeline的方式，但即便是最好的OCR解决方案，与结构化真实数据相比，至少也表现出**7.5%**的性能差距。此外，仅输入图像无法达到使用OCR文本的性能，但通过简单结合这两种输入，VLM可以将性能提高多达24.5%，并接近真实文本基线的性能，表明其在RAG系统中应用VLMs具有巨大潜力。

可以关注下以下几个点：

一个是数据集的构建过程，汇编了一个代表六种常见RAG应用情景的PDF文档集：教科书、法律、金融、报纸、手册和学术论文。

一个是OCR噪声数据的生成。两种主要的OCR噪声类型，语义噪声和格式噪声。

对于语义噪声，语义噪声源自OCR预测错误，包括拼写错误、误识别的公式符号，以及表格中的内容和结构错误。这种类型的噪声影响了解析内容的语义，使检索器和大模型偏离整合与用户查询相关的正确信息。

由于其出现不规则通过提供示例并采用GPT-4o来模仿它来引入这种类型的噪声。具体来说，从当前OCR结果中收集真实示例。根据它们与真实值的编辑距离，将它们分为三类，并提示GPT-4o基于这些示例在三个层级上修改真实值的结构化数据。扰动涵盖所有文档元素，包括纯文本、表格和公式。

如图3所示，对表格的轻微扰动包括打字错误，而中等扰动通过添加或错位行和列来破坏结构，这使得检索和大模型的认知变得更加复杂。严重扰动产生带有控制字符缺失的表格，这些表格无法正确渲染，模拟OCR识别故障。对于纯文本和公式，引入不同比例的拼写错误、视觉上相似的字符以及截断，以生成三种不同程度的噪声。

对于格式噪声，指的是用于样式渲染的格式命令，例如用于美化公式的空白字符，以及用于提高可读性的粗体和斜体命令，还有像Markdown和LaTeX表格这样的结构化数据的不同的表示方法。尽管与语义无关，这种噪声却使得检索器和大模型的信息整合变得复杂。

通过回顾当前OCR输出中的格式噪声情况，并制定规则通过添加、移除和格式转换策略来复制这些格式噪声。对于纯文本，扰动从标记级别的变化（例如，粗体、斜体和下划线）到段落级别的调整（例如，标题和阅读顺序的打乱）。在公式和表格中，关注像公式中的“\quad”和表格中的“\hline”这样的多余元素，以及等效符号如“\mathbf{}”、“\boldsymbol{}”和“\mathbb{}b{}^{\prime}”。通过改变真实结构化数据中这些变化的比例，创建了三组具有不同程度格式噪声的扰动数据。

一个是评估结论，如下表所示：

有三个结论值得看看：

首先，包括拼写错误、公式符号误识以及表格内容和结构错误这类的语义噪声会对检索和生成阶段产生显著影响，**导致大多数检索器和LLM的性能下降近50%**。例如，表格相关问题的F1值下降了50%，表明正确解析表格结构的重要性。

其次，包括样式渲染命令（如空白字符、粗体和斜体）以及不同格式的结构化数据（如Markdown和LaTeX表格）的格式噪声主要影响涉及多模态元素的查询，BM25和Qwen2-7B在检索和生成阶段的性能分别下降了16.8%和19.4%。例如，使用HTML表格进行检索时，BM25的性能显著下降。

此外就是，markdown 表示表格，在这里面看来，其实是最合适的，html是最差的；markdown>latex>html。

最后，单独使用图像输入的性能仍然落后于使用OCR文本输入。然而，将图像和OCR文本结合使用可以显著提高性能。GPT-4o在使用图像和OCR文本结合输入时的F1值提高了24.5%，接近基准文本输入的性能。

总结

本文主要回顾了RAG中OCR的噪声对整体RAG 效果的影响分析，其中对数据的构建、噪声的设定以及几个评测结论，都很有意思，推荐大家跟随原文进行阅读，会有更多收获。

参考文献

1、https://arxiv.org/pdf/2402.18150

2、https://arxiv.org/pdf/2405.20978

3、https://arxiv.org/pdf/2412.02592

关于我们

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入会员方式：关注公众号，在后台菜单栏中点击会员社区->会员入群加入

老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

最新文章

大模型用于情报分析时间线生成(TLS)任务：根本问题及两个代表工作

OCR噪声对RAG性能的影响分析：兼谈公众号文章的价值正确定位

60k感知算法岗面试，考察热门Occ算法及难点！

技术实践指引：3个适合练手的开源数据及项目平台

语音处理落地组件全家桶：语音大模型、数字人、语音到文本、文本转语音全集

老刘说NLP社区2024年终演讲：回顾得失，踏实前行

GraphRAG范式的新角度思考及一个很有信息量的总结

大模型4大神书《动手学大语言模型之语言理解和生成》分享

RAG落地端侧场景：EdgeRAG面向端侧RAG优化思路及特定领域多模态探索

2025年开篇：技术及宏观角度回顾2024年大模型发展

老刘说NLP及大模型的2024年终总结—不悲不喜、继续前行

GraphRAG前沿进展：引入本体的OG-RAG及HYBGRAG实现思路

大模型与知识图谱结合之三元组预测及GEAR多跳问答思路

老刘说NLP技术社区共享：围绕知识图谱+大模型+文档智能三驾马车前进

多模态RAG中的图文Embedding模型及8个图文对数据集

Prompt自动优化框架PromptWizard及AI搜索框架Level-Navi Agent实现思路

RAG的4种查询优化思路及用于时序预测的2个工作

又看多模态RAG进展：解读OmniSearch-多模态检索增强生成新SOTA！

大模型用于推荐(LLMERS)范式总结及缓存增强生成（CAG）实现思路

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

再看情报分析中的事件名称生成策略：基于最长公共子串思想原理

两个值得一读的技术总结：OpenAI o1模型复现复现思想及多模态大模型用于数学推理

langchain关于Agent的年终统计及文档图片去水印思路

文档智能遇上历史古籍：古籍文档修复及识别开源数据集

再看多模态RAG进展：VisDoMRAG及DocVLM-OCR方案解读

《一书解决几乎所有机器学习问题》.PDF下载

【数字人应用基建】29个文本转语音TTS开源工具

大模型人才的薪资，彻底爆了！

【数字人应用基建】7个数字人生成及24个语音到文本ASR开源项目

RAG常见模式、痛点及最佳实践总结4张图：兼看大模型时代的工程开发工具集合

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG年终总结之12篇综述：从2022到2024看架构、策略、评测及演化

大模型行业，岗位也分三六九等

【RAG 2024时间线回顾】RAG七十二式：2024年度RAG清单索引

卷图不卷图谱-GraphRAG最近趋势：考虑结构性、相似性、相关性等Graph思想实现策略

视觉语言模型新SOTA！性能碾压LoRA，无需预训练，训练显存大大减少！

文档处理之E2M转Markdown工具及BigDocs大规模通用文档数据集

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

【前沿进展】文档多模态嵌入表示方案DSE、数据合成及AI搜索应用新风向

AI生成文本检测数据集及9个工具索引：兼看“磁悬浮老鹰”逻辑陷进测试

RAG用于翻译实现思路及多模态模型用于文档理解的几个核心问题

【文档智能】多模态文档OCR评测CC-OCR及专有模型代表工作

aiops-challenge比赛简单总结

故障分析怎么做？朴素KG方案及LLM+Graph RAG方案实现思路

yyds！哈工大博士的PyTorch笔记火了！！

ChatGPT两周年历程回顾及大模型Text2SQL方案索引

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

12个开源AI搜索引擎项目及关于Ai搜索的一些思考

AUTO-RAG多轮对话迭代式检索及RAGDiffusion多模态图像生成思路

使用LLM进行标书写作简单开源项目及openai O1实现思路再索引

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉