多模态RAG的4种模式简单实践及RAG切分的开源工具Chonkie

文摘 2024-11-15 21:35 北京

今天是2024年11月15日，星期五，北京，天气晴。

昨天，我们回顾了多模态RAG的一些理论方法，分为两类，一种是解析式文档多模态RAG(将一个文档切分为页面，然后再用版式识别的方式对文档进行各种模态元素进行分割、解析、提取，然后再嵌入、检索）；另一种是DocVQA式文档多模态RAG(将文档切分为页面图像，不再细分，然后根据页面图像级别进行检索，类似于docvqa)，而纸上得来终觉浅，绝知此事要躬行，我们来讲讲几个多模态RAG的四个简单动手实践脚本。

另一个是关于RAG切分的开源工具Chonkie，对于RAG切分不熟悉的，可以跑一跑看看。

坚持，总是会有收获的。

一、多模态RAG的四个简单动手实践脚本

至于动手环节，目前已经有一些可以实践的项目，如https://github.com/kyryl-opens-ml/vision-retrieval、Byaldi(https://github.com/AnswerDotAI/byaldi)、colpali(https://github.com/illuin-tech/colpali)

而作为一个汇总，我们可以看《Vision Augmented Retrieval and Generation》(https://github.com/adithya-s-k/VARAG)项目，可以用来练手，支持四种模式，其中的.py文件为执行脚本。‍‍

1、Simple RAG (with OCR,https://github.com/adithya-s-k/VARAG/blob/main/examples/textDemo.py)，通过Docling集成了OCR，使扫描的PDF或图像能够处理和索引。 文本提取和索引后，查询可以与文档中的相关段落相匹配，适合扫描书籍、合同和研究论文等文本。

2、Vision RAG(https://github.com/adithya-s-k/VARAG/blob/main/examples/visionDemo.py)，通过结合视觉信息的检索来扩展传统的RAG技术，弥合文本和图像之间的差距。 使用强大的跨模态嵌入模型，如JinaCLIP（由Jina AI开发的CLIP的变体），文本和图像都被编码为共享矢量空间。这允许跨不同模态之间进行相似性搜索，图像可以与文本一起查询。

3、ColPali RAG(https://github.com/adithya-s-k/VARAG/blob/main/examples/colpaliDemo.py)，通过将文档页面直接嵌入为图像，而不是将其转换为文本。 从昨天的文章中，我们知道，这种方式传统的检索piepline，利用了视觉语言模型（VLM）PaliGemma，该模型将整个文档页面编码为嵌入，将页面布局和视觉元素视为检索过程的一部分。使用受ColBERT（列BERT）启发的后期交互机制，ColPali RAG通过在用户查询和文档补丁之间启用令牌级匹配来增强检索。因为传统的基于文本的检索方法很困难。这种方法确保了高检索精度，同时保持了合理的索引和查询速度，对视觉效果丰富的文档特别有益，如信息图表、表格和复杂的布局，

4、Hybrid ColPali RAG(https://github.com/adithya-s-k/VARAG/blob/main/examples/hybridColpaliDemo.py)， 通过结合图像嵌入和ColPali的后期交互机制的优势，进一步提高检索性能。首先使用图像嵌入（例如，从JinaCLIP等模型）执行粗略的检索步骤，以检索前k的相关文档页面。然后，使用ColPali后期交互机制对这k页进行重新排名，以根据视觉和文本信息识别最相关的页面集合。

二、关于RAG切分的开源工具Chonkie

RAG切分的方式，其实我们已经讲过很多了，但对于小白而言，可以有更多选择，例如Chonkie(https://github.com/bhavnicksm/chonkie，https://pypi.org/project/chonkie/)，提供了几种方式的封装调用：

 First import the chunker you want from Chonkie 
from chonkie import TokenChunker

# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer 
tokenizer = Tokenizer.from_pretrained("gpt2")

# Initialize the chunker
chunker = TokenChunker(tokenizer)

# Chunk some text
chunks = chunker("Woah! Chonkie, the chunking library is so cool!",
                  "I love the tiny hippo hehe.")

# Access chunks
for chunk in chunks:
    print(f"Chunk: {chunk.text}")
    print(f"Tokens: {chunk.token_count}")

1）TokenChunker：Splits text into fixed-size token chunks；

2）WordChunker: Splits text into chunks based on words；

3）SentenceChunker: Splits text into chunks based on sentences；

4）SemanticChunker: Splits text into chunks based on semantic similarity；

5）SDPMChunker: Splits text using a Semantic Double-Pass Merge approach共5种切分方式，再想详细参考细节，可以看https://github.com/bhavnicksm/chonkie/blob/main/DOCS.md，

当然，也有一些对比结论：https://github.com/bhavnicksm/chonkie/blob/main/benchmarks/README.md，跟其他切分组件(如LangChain、LlamaIndex)的对比，如下：

总结

本文主要介绍了多模态RAG的四个简单动手实践脚本、关于RAG切分的开源工具Chonkie，这些可以进一步增强我们对RAG本身的理解。

纸上得来终觉浅，绝知此事要躬行。大家加油

参考文献

1、https://github.com/bhavnicksm/chonkie

2、https://github.com/adithya-s-k/VARAG

关于我们

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入会员方式：关注公众号，在后台菜单栏中点击会员社区->会员入群加入

http://mp.weixin.qq.com/s?__biz=MzAxMjc3MjkyMg==&mid=2648415921&idx=1&sn=b39944d60411d5be92d79b7a80eb284a

老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

最新文章

大模型经典著作《大语言模型基础与前沿》

【RAG竞赛获奖方案】CCF第七届AIOps国际挑战赛季军方案分享EasyRAG：一个面向AIOps的简洁RAG框架

现有RAG框架非完全总结：7个GraphRAG+17个传统RAG框架归纳

RAG结合知识图谱本周前沿总结：引入推理规则、用于实体链接及KGQA式GraphRAG

KG+RAG系列范式对比及KAG框架再思考：兼看大模型增强KBQA问答竞赛方案

多模态RAG的4种模式简单实践及RAG切分的开源工具Chonkie

文档多模态RAG应该如何做？解析式orDocVQA式两类实现思路漫谈

最强总结！复盘kaggle大模型竞赛！附top方案

如何识别文档的层级结构：Detect-Order-Construct、HRDoc、DocParser三个方案

杀疯了｜AI辅助科研论文、NLP与数据处理代码能力，太强大了…

如何解决文档处理中的顺序错误问题：文档阅读顺序及OCR阅读顺序代表应对方案

RAG文档处理中的数值图表和流程图如何解析？从表示方式到代表解决方案

文档解析之表格结构预测获奖方案及开源数据集总结

值得一看的小模型技术全面总结及RAG文档处理及切分小模型工具

RAG前沿再跟进：HtmlRAG、分块策略、GraphRAG-DRIFT及多样性生成

GraphRAG系列范式冷思考：GraphRAG、KAG框架思考及E2E-AFG自适应过滤端到端思路

爆了，多模态杀疯了

RAG中的代表性上下文压缩方案总结：从RECOMP、CompAct到COCOM

大模型prompt压缩技术总结：从硬提示到软提示代表方案实现思路

长文本RAG中上下文压缩思路FlexRAG：兼看昨日大模型产研进展

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

重大更新！大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG新思路之引入知识图谱规则及文档解析技术路线总结

大模型与知识图谱结合用于推荐及LLM驱动分块ChunkRAG实现策略解读

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

GPTs 上线！AI 应用开发再次爆发

ChunkRAG文本分块排序新思路:兼看大模型与知识图谱结合用于推荐框架KGLA

也看大模型操作手机实现机理及前置基础：苹果Ferret-UI、微软OmniParser屏幕理解实现思路

RAG总结之知识检索与选择影响分析：兼看知识图谱关系建模技术总结

20241025大模型产研进展回顾：兼看知识图谱与RAG结合用于代码生成

AIOps RAG竞赛优秀方案EasyRAG解读：兼看SimRAG:自适应检索增强微调思路

RAG前沿之RAG–知识图谱构建框架Graphusion：兼看LongRAG双视角检索增强生成范式

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

又一本开源免费的大模型书来了，449页pdf！

再看RAG何时触发检索之ProbingRAG：兼看RAG引文生成的三阶段新思路

RAG总结及前沿之Meta-Chunking切分思路及VisRAG多模态实现机制解读

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

知识图谱与RAG结合之KAR查询扩展思路解读：兼看RAG前沿阶段性不完全归纳

文档处理之10种PDF解析工具测评：兼看知识图谱遇见Chart图表的有趣实现思路

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

大模型的数据合成与增强技术总结：兼看文档版式分析及RAG今年进展

前沿之大模型与知识图谱结合新思路：Pyramid Alignment知识推理实现逻辑剖析及理解

大模型微调数据随意选择会更有效？兼看渐进式检索FunnelRAG实现思路

轰动NLP自然语言处理界｜硕博士利用ChatGPT-4o做科研、自动编程、写论文，太方便了...

Baichuan-Omni多模态模型及KV Cache换速度的TurboRAG方案

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

突破了LLM极限，GPT-o1深度揭秘

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉