RAG文档处理中的数值图表和流程图如何解析？从表示方式到代表解决方案

文摘 2024-11-11 08:56 北京

今天是2024年11月11日，星期一，北京，天气雾。

我们从今天起，得换个写法，回归到实际场景业务，谈谈一些解决方案的话题。

最近琢磨的事情，就是现在很多文档场景，其实本质上都是做的数字化的过程，核心是从不可编辑到可编辑，比如常见的表格解析、文档转markdown、docx等。

今天，我们来看看一个比较有趣的话题，这其实是RAG中的一些图表的解析方案，讲讲数值图表的解析以及流程图的解析。

一些很有趣的思路，供大家一起参考。

一、先说数值图表的解析

而进一步的，其实，文档还是会有流程图、柱状图等数值图表，也有一些其他图片。

其中，对于柱状图等数值图，目前已经有了很多将柱状图转为底层json_dict的方案，比如onechart(https://arxiv.org/pdf/2404.09987)、unichart(https://arxiv.org/pdf/2305.14761)等。其核心是通过构造<数值图表, json_dict>的输入输出对，然后丢入多模态模型进行sft微调。

关键点是这个微调数据的生成，主要是靠反向渲染（通过生成json_dict数据（例如让chatgpt生成，或者自定义模版生成，数据的表示也很有趣，主要是使用json_dict来表示x轴、y轴以及对应的数值列表，以及对应的类型信息，比如饼图、折线图等），然后送入matplotlib、echarts或者pyecharts进行渲染。

所以，这种思路，其实就是在拟合数据集，很容易因为数据的多样性不足，表现并不稳定，很容易出现幻觉。将这些数据转写之后，可以再进行分析，以及类型转换等。

二、再看流程图的解析

而对于流程图，流程图（FlowChart）是描述我们进行某一项活动所遵循顺序的一种图示方法，能通过图形符号形象的表示解决问题的步骤和程序。

调研了一圈，其实做的人并不多，总结起来，就是几个核心问题。

1、flowchart如何表示问题

flowchart其实有很多种，如使用bing搜索，能找到很多不同的flowchart图像，如下：

如果要进行呈现，则有不同的表示语法。

例如，使用mermaid(https://mermaid.nodejs.cn/syntax/flowchart.html)表示流程图，例如如下语法可以表示订单处理流程。

flowchart LR
A[下单] --> B{库存检查}
B – 有货 --> C[支付]
B – 无货 --> D[提示缺货]
C --> E{支付成功?}
E – 是 --> F[发货]
E – 否 --> G[支付失败]
G --> A

渲染之后为：

也可以使用UML(https://www.visual-paradigm.com/cn/guide/uml-unified-modeling-language/what-is-uml/，https://www.w3cschool.cn/uml_tutorial/uml_tutorial-kty628y9.html)表示流程图，UML是统一建模语言的简称，它是一种由一整套图表组成的标准化建模语言。

也可以使用networkx来表示，专门绘制图的，表示的是Graph的形式。

import networkx as nx
import matplotlib.pyplot as plt
data_dict = {
    1:[{'left':20, 'right':21}],
    20:[{'left':30, 'right':31}],
    21:[{'left':40, 'right':41}],
    30:[],
    31:[],
    40:[],
    41:[]
}
G = nx.DiGraph()
# step 1: add edges
for key in data_dict:
    print(key)
    for source in data_dict[key]:
        if 'left' in source:
            print('left [%d]' % (source['left']))
            if source['left'] in data_dict:
                G.add_edge(key, source['left'])
        if 'right' in source:
            print('right [%d]' % (source['right']))
            if source['right'] in data_dict:
                G.add_edge(key, source['right'])

# nx.draw_networkx(G)
# plt.show()
print(G.edges())

效果图如下：

当然，也可以使用知识图谱三元组的表示形式，<头节点，关系，尾节点>，每个流程图的环节，都可以用若干个三元组构成。

另一种，就是用视觉的方式进行表示，标注对应的boundingbox以及位置信息等。

2、如何解析流程图

只要确定了流程图的表示方法，如何要对流程图进行解析，那么就只需要将转为对应的表示形式就行。其中的核心难点是流程图中节点的识别、线的识别以及ocr识别，前面的节点识别还好，用目标检测即可，ocr也好，也有现成的，主要是线的识别【当然，解析的程度还可以进一步分为内容、形状、颜色以及布局等，这些则是另外的实现策略了】。

所以，目前有两个主流方法。一个是多模态的方法，一个是传统深度学习CV处理的方案。

多模态方法上，和图表类解析一致，做成端到端的方案，如 《FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding》(https://arxiv.org/pdf/2407.05183)

例如，在qwen-vl上，直接将其解析为三元组的表示，说明其实有理解能力的。

同理，流程图跟思维导图其实也很像，如《MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis》(https://arxiv.org/abs/2407.02842)，使用markdown来表示流程图：

可以直接使用“ Please convert the mind map to markdown. Use #, ##, ##, ####, and so on to represent nodes at different levels.“的prompt来识别：

另一个是使用传统cv目标分割的方案去做，代表的方案是《Flowmind2Digital: The First Comprehensive Flowmind Recognition and Conversion Approach》(https://arxiv.org/abs/2401.03742)，讲了讲如何将手绘的流程图和思维导图（统称为flowmind）自动转换为数字格式。

Flowmind2digital方法包括两个主要部分：对象和关键点检测，以及后处理。

首先是对象和关键点检测，使用Mask-RCNN进行对象检测，能够同时检测形状、关键点和文本。Mask-RCNN的两阶段架构包括区域提议网络（RPN）和感兴趣区域网络（ROI），分别负责生成区域提议和分类、细化边界框位置。

其次后处理，包括形状生成、连接确定、文本内容提取和自动排版。

在形状生成阶段，使用python-pptx库与Microsoft PowerPoint交互，或使用win32com库与Visio交互，将检测到的关键点坐标转换为相应的形状。

在连接确定阶段，通过计算连接器和形状之间的欧几里得距离，确定连接器的连接点（这个比较关键）。

按照原文的叙述，假设检测到的形状在边界框中设定为标准化方向（具有水平基线），该过程首先计算每个形状上的候选点，参考PPT和Visio形状上的可连接锚点。其次，对于每个连接点关键点，它识别所有形状上最近的候选点。对于多边形，它计算关键点到每条边的垂直距离（如图13a所示的𝑑₁, 𝑑₂）。需要注意的是，如果垂直线的落脚点位于边的延长线上，则选择从关键点到边端点的最短距离作为最短距离（如图的𝑑₁₃, 𝑑₂₄）。对于非多边形，它根据PPT和Visio的连接规则在形状上确定𝑛个候选点，并指定关键点只能与这些点相连。例如，圆的候选点为上、下、左、右、左上、左下、右上和右下。最后，对于每个关键点，选择具有最近候选点的形状作为连接对象。

在文本内容提取阶段，使用OCR软件提取文本框内的具体内容，在自动排版阶段，采用基于Canopy和K-means算法的两阶段聚类模型，调整形状的大小和位置，生成最终的输出文件。

最后，这个工作还做了一个数据集和模型，对应的数据集、模型在：https://github.com/cai-jianfeng/flowmind2digital

总结

本文主要围绕文档中的图标解析这一工作作了介绍，分别介绍了先说数值图表的解析、流程图表解析两个任务的一些代表方案。

整个大的潮流，其实都是往多模态的方向做，但受限于图片分辨率、OCR效果以及多样性，所以，但多模态大模型已经有了初步这样的能力。

参考文献

1、https://arxiv.org/pdf/2404.09987

2、https://arxiv.org/abs/2401.03742

3、https://arxiv.org/pdf/2407.05183

关于我们

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入会员方式：关注公众号，在后台菜单栏中点击会员社区->会员入群加入

http://mp.weixin.qq.com/s?__biz=MzAxMjc3MjkyMg==&mid=2648415781&idx=1&sn=9afd26215ef6e3aade27c40bf3f2047b

老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

最新文章

文档多模态RAG应该如何做？解析式orDocVQA式两类实现思路漫谈

最强总结！复盘kaggle大模型竞赛！附top方案

如何识别文档的层级结构：Detect-Order-Construct、HRDoc、DocParser三个方案

杀疯了｜AI辅助科研论文、NLP与数据处理代码能力，太强大了…

如何解决文档处理中的顺序错误问题：文档阅读顺序及OCR阅读顺序代表应对方案

RAG文档处理中的数值图表和流程图如何解析？从表示方式到代表解决方案

文档解析之表格结构预测获奖方案及开源数据集总结

值得一看的小模型技术全面总结及RAG文档处理及切分小模型工具

RAG前沿再跟进：HtmlRAG、分块策略、GraphRAG-DRIFT及多样性生成

GraphRAG系列范式冷思考：GraphRAG、KAG框架思考及E2E-AFG自适应过滤端到端思路

爆了，多模态杀疯了

RAG中的代表性上下文压缩方案总结：从RECOMP、CompAct到COCOM

大模型prompt压缩技术总结：从硬提示到软提示代表方案实现思路

长文本RAG中上下文压缩思路FlexRAG：兼看昨日大模型产研进展

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

重大更新！大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG新思路之引入知识图谱规则及文档解析技术路线总结

大模型与知识图谱结合用于推荐及LLM驱动分块ChunkRAG实现策略解读

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

GPTs 上线！AI 应用开发再次爆发

ChunkRAG文本分块排序新思路:兼看大模型与知识图谱结合用于推荐框架KGLA

也看大模型操作手机实现机理及前置基础：苹果Ferret-UI、微软OmniParser屏幕理解实现思路

RAG总结之知识检索与选择影响分析：兼看知识图谱关系建模技术总结

20241025大模型产研进展回顾：兼看知识图谱与RAG结合用于代码生成

AIOps RAG竞赛优秀方案EasyRAG解读：兼看SimRAG:自适应检索增强微调思路

RAG前沿之RAG–知识图谱构建框架Graphusion：兼看LongRAG双视角检索增强生成范式

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

又一本开源免费的大模型书来了，449页pdf！

再看RAG何时触发检索之ProbingRAG：兼看RAG引文生成的三阶段新思路

RAG总结及前沿之Meta-Chunking切分思路及VisRAG多模态实现机制解读

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

知识图谱与RAG结合之KAR查询扩展思路解读：兼看RAG前沿阶段性不完全归纳

文档处理之10种PDF解析工具测评：兼看知识图谱遇见Chart图表的有趣实现思路

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

大模型的数据合成与增强技术总结：兼看文档版式分析及RAG今年进展

前沿之大模型与知识图谱结合新思路：Pyramid Alignment知识推理实现逻辑剖析及理解

大模型微调数据随意选择会更有效？兼看渐进式检索FunnelRAG实现思路

轰动NLP自然语言处理界｜硕博士利用ChatGPT-4o做科研、自动编程、写论文，太方便了...

Baichuan-Omni多模态模型及KV Cache换速度的TurboRAG方案

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

突破了LLM极限，GPT-o1深度揭秘

23个大模型推理框架及量化技术总结：兼看大模型信息抽取框架EDC

再看长文本大模型遇见RAG：长输入的RAG方案挑战及其缓解实证分析

老刘的RAG小课堂开始啦！从朴素RAG到KG增强RAG再到文档解析三阶段

LLM-based SPARQL生成思路及Natural Language to SQL综述

RAG前沿之CoV-RAG验证链增强及面向PDF文档的多模态RAG方案简析

国庆期间5大RAG前沿进展总结：从表格RAG-TableRAG到引入图、树结构优化的RAG框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉