值得一看的小模型技术全面总结及RAG文档处理及切分小模型工具

文摘 2024-11-09 11:34 北京

今天是2024年11月09日，星期六，北京，天气晴，

本文还是来看看RAG，不过是从另一个角度，从小模型(其实这个小不太好说，7B或者以下？)角度；

因此，讲两件事，一个是回顾下小模型，推荐一个写的很好的小模型进展技术总结综述，里面提到的几个关键点都值得索引；再看小模型用于RAG文本切分的一些小模型工具，包括文档处理、文档切分等。

仔细读，会有收获，供大家一起参考。

一、特别直接推荐的小模型进展技术总结

关于小模型综述，我们之前其实有说过，例如《What is the Role of Small Models in the LLM Era: A Survey》(https://github.com/tigerchen52/role_of_small_models, https://arxiv.org/pdf/2409.06857)，而进一步的，老刘说NLP技术社区在11月07日早报中提到了另一个小模型综述，《A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness》(https://arxiv.org/pdf/2411.03350)，周末有空，温习了下，感觉很不错，十分推荐给大家，可以重点看几个点：

1、当前都有哪些小模型

2、小模型的发展时间线

3、Representative quantization methods当前一些量化的方法

4、当前一些模型压缩压缩的方法对比

5、小模型的领域应用

尤其是这个，小模型用于websearch上的结合方式：

6、小模型的部署成本消耗

7、小模型协助大模型的一些代表工作

二、再看小模型用于RAG文档处理及切分‍‍‍‍‍‍‍‍‍‍

关于RAG切分，可以看看小模型用在RAG领域的一些工作，也是昨晚看到的，JinaAI在这方面做了不少工作。

先说文档清洗阶段，将html转换为markdown(reader-lm-0.5b: https://huggingface.co/jinaai/reader-lm-0.5b，reader-lm-1.5b: https://huggingface.co/jinaai/reader-lm-1.5b)

使用方式也很简单：

# pip install transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "jinaai/reader-lm-0.5b"
device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
# example html content
html_content = "<html><body><h1>Hello, world!</h1></body></html>"
messages = [{"role": "user", "content": html_content}]
input_text=tokenizer.apply_chat_template(messages, tokenize=False)
inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
outputs = model.generate(inputs, max_new_tokens=1024, temperature=0, do_sample=False, repetition_penalty=1.08)

print(tokenizer.decode(outputs[0]))

再说文档切分阶段，将文档进行切割，这里还会涉及到一个wiki-segment数据集，https://github.com/koomri/text-segmentation) ，从维基百科文章中提取的大规模结构化文本片段集合，包含超过727,000个文本块，每个片段代表维基百科文章的不同部分，例如引言、章节或子章节。

基于这个数据，可以训练出来一些小模型进行切割，例如：

simple-qwen-0.5(https://huggingface.co/jinaai/text-seg-lm-qwen2-0.5b)，根据文档的结构元素进行切分；

topic-qwen-0.5(https://huggingface.co/jinaai/text-seg-lm-qwen2-0.5b-cot-topic-chunking)：借鉴来自Chain-of-Thought)推理，先识别文本中的主题，再根据主题进行切分，确保每个段落主题连贯最适合复杂的多主题文档；

summary-qwen-0.5(https://huggingface.co/jinaai/text-seg-lm-qwen2-0.5b-summary-chunking):能切分文档，并生成每个分块的摘要，适合长文档问答任务需要更多训练数据，这个就很有趣，还需要用到GPT4-O进行增强：

Generate a five to ten words topic and a one sentence summary for this chunk of text.
#
{text}
#
Make sure the topic is concise and the summary covers the main topic as much as possible.

Please respond in the following format:
#
Topic: ...
Summary: ...
#
Directly respond with the required topic and summary, do not include any other details, and do not surround your response with quotes, backticks or other separators.
   """.strip()

总结

本文主要从围绕小模型这个话题做了回顾，一个是回顾下小模型，推荐一个写的很好的小模型进展技术总结综述，里面提到的几个关键点都值得索引；再看小模型用于RAG文本切分的一些小模型工具，包括文档处理、文档切分等。

最近，在做文档处理结合落地的一些事情，尤其是表格解析，目前最大的问题是稳定性和速度的问题，而为了解决速度和成本问题，所以大模型(甚至是Transformer级)的方案都要舍弃掉，所以也是在看一些传统的cv方案，比如yolo做检测这些，做一些组合策略，其实效果还不错，所以也在想，当前很多大模型这股潮流其实将大家的思维固化了，觉得除了大模型就没有其他方案【其实这个的确如此，比如实体识别这些经典任务，bert-crf这些很多人竟然都不知道了，不去往那方面想，这其实问题挺大的】，因此，之前已经被验证的经典方案，还是要捡起来，这样，才不会过于被动，技术思维不要固化。

参考文献

1、https://arxiv.org/pdf/2411.03350

2、https://mp.weixin.qq.com/s/p2KrZKpcYnkc28geheInVA

3、https://mp.weixin.qq.com/s/_8aStJchSoHN6jYVMb0Hkw

关于我们

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入会员方式：关注公众号，在后台菜单栏中点击会员社区->会员入群加入

http://mp.weixin.qq.com/s?__biz=MzAxMjc3MjkyMg==&mid=2648415742&idx=1&sn=eee3d23030ec45bf0f752b5315811e73

老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

最新文章

文档多模态RAG应该如何做？解析式orDocVQA式两类实现思路漫谈

最强总结！复盘kaggle大模型竞赛！附top方案

如何识别文档的层级结构：Detect-Order-Construct、HRDoc、DocParser三个方案

杀疯了｜AI辅助科研论文、NLP与数据处理代码能力，太强大了…

如何解决文档处理中的顺序错误问题：文档阅读顺序及OCR阅读顺序代表应对方案

RAG文档处理中的数值图表和流程图如何解析？从表示方式到代表解决方案

文档解析之表格结构预测获奖方案及开源数据集总结

值得一看的小模型技术全面总结及RAG文档处理及切分小模型工具

RAG前沿再跟进：HtmlRAG、分块策略、GraphRAG-DRIFT及多样性生成

GraphRAG系列范式冷思考：GraphRAG、KAG框架思考及E2E-AFG自适应过滤端到端思路

爆了，多模态杀疯了

RAG中的代表性上下文压缩方案总结：从RECOMP、CompAct到COCOM

大模型prompt压缩技术总结：从硬提示到软提示代表方案实现思路

长文本RAG中上下文压缩思路FlexRAG：兼看昨日大模型产研进展

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

重大更新！大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG新思路之引入知识图谱规则及文档解析技术路线总结

大模型与知识图谱结合用于推荐及LLM驱动分块ChunkRAG实现策略解读

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

GPTs 上线！AI 应用开发再次爆发

ChunkRAG文本分块排序新思路:兼看大模型与知识图谱结合用于推荐框架KGLA

也看大模型操作手机实现机理及前置基础：苹果Ferret-UI、微软OmniParser屏幕理解实现思路

RAG总结之知识检索与选择影响分析：兼看知识图谱关系建模技术总结

20241025大模型产研进展回顾：兼看知识图谱与RAG结合用于代码生成

AIOps RAG竞赛优秀方案EasyRAG解读：兼看SimRAG:自适应检索增强微调思路

RAG前沿之RAG–知识图谱构建框架Graphusion：兼看LongRAG双视角检索增强生成范式

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

又一本开源免费的大模型书来了，449页pdf！

再看RAG何时触发检索之ProbingRAG：兼看RAG引文生成的三阶段新思路

RAG总结及前沿之Meta-Chunking切分思路及VisRAG多模态实现机制解读

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

知识图谱与RAG结合之KAR查询扩展思路解读：兼看RAG前沿阶段性不完全归纳

文档处理之10种PDF解析工具测评：兼看知识图谱遇见Chart图表的有趣实现思路

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

大模型的数据合成与增强技术总结：兼看文档版式分析及RAG今年进展

前沿之大模型与知识图谱结合新思路：Pyramid Alignment知识推理实现逻辑剖析及理解

大模型微调数据随意选择会更有效？兼看渐进式检索FunnelRAG实现思路

轰动NLP自然语言处理界｜硕博士利用ChatGPT-4o做科研、自动编程、写论文，太方便了...

Baichuan-Omni多模态模型及KV Cache换速度的TurboRAG方案

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

突破了LLM极限，GPT-o1深度揭秘

23个大模型推理框架及量化技术总结：兼看大模型信息抽取框架EDC

再看长文本大模型遇见RAG：长输入的RAG方案挑战及其缓解实证分析

老刘的RAG小课堂开始啦！从朴素RAG到KG增强RAG再到文档解析三阶段

LLM-based SPARQL生成思路及Natural Language to SQL综述

RAG前沿之CoV-RAG验证链增强及面向PDF文档的多模态RAG方案简析

国庆期间5大RAG前沿进展总结：从表格RAG-TableRAG到引入图、树结构优化的RAG框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉