Chunk的五种方法

文摘 2024-09-01 15:32 新加坡

本文涉及到的详细测试代码和测试步骤放置于：

https://github.com/xinyuwei-david/david-share.git

下的：LLMs/5-ways-chunking,本文中不再赘述代码实现。

1. 固定大小分块（Level 1: Fixed Size Chunking）

描述

固定大小分块是一种最简单的文本分割方法，它将文本按固定的字符数分割成块，不考虑文本的内容或结构。

实现

这种方法实现简单，按照指定的字符数进行分割。例如，如果设定每块不超过100个字符，文本将被直接分割成每块100个字符的片段。

优点

实现简单，适用于对文本结构要求不高的场景。

缺点

可能会在不合适的位置（如单词中间、句子中间）进行分割，导致语义不完整，影响后续处理。

举个例子

假设我们有一段文本：

这是第一段。这段话有点长，需要分割。
这是第二段。它也需要分割。

如果我们设定每块不超过20个字符，分割结果可能是：

块1: 这是第一段。这段  
块2: 话有点长，需要分  
块3: 割。这是第二段。
块4: 它也需要分割。

可以看到，分割在单词和句子中间进行，语义不完整。

2. 递归分块（Level 2: Recursive Chunking）

描述

递归分块是一种考虑文本结构的分块方法，通过分层和迭代的方式将文本分割成较小的块。它使用一组分隔符（如段落、句子、单词等）来逐步分割文本。

实现

首先尝试使用较大的分隔符（如段落），如果分割后的块仍然太大，则使用较小的分隔符（如句子），依此类推，直到达到所需的块大小。

优点

能够更好地保留文本的结构和语义关系，避免在不合适的位置进行分割。

缺点

实现相对复杂，需要考虑多层次的分隔符和递归调用。

举个例子

假设我们有一段文本：

这是第一段。这段话有点长，需要分割。
这是第二段。它也需要分割。

递归分块过程：

第一步：使用段落分隔符“\n\n”进行分割，得到两个段落：

段落1: 这是第一段。这段话有点长，需要分割。
段落2: 这是第二段。它也需要分割。

2. 第二步：检查每个段落的长度，如果段落1仍然太长，则使用句子分隔符“.”进行分割：

句子1: 这是第一段。
句子2: 这段话有点长，需要分割。

3. 第三步：检查每个句子的长度，如果句子2仍然太长，则使用单词分隔符“ ”进行分割：

单词1: 这段话有点长，  
单词2: 需要分割。

通过这种逐层分割的方法，递归分块能够在尽量保持语义完整性的前提下，将文本分割成合适大小的块。

3. 基于文档的分块（Level 3: Document Based Chunking）

描述

基于文档的分块方法根据文档的自然结构（如章节、段落、标题等）来分割文本。这种方法特别适用于结构化文档，如书籍、报告、论文等。

实现

通过识别文档中的自然分隔符（如章节标题、段落标记等）来分割文本。

优点

能够保留文档的自然结构，适用于结构化文档。
分割点通常在自然的语义边界上，保留了文本的完整性。

缺点

依赖于文档的结构，适用范围有限。
对于非结构化文本，效果不佳。

举个例子

假设我们有一篇文章：

# 第一章  
这是第一章的内容。
# 第二章  
这是第二章的内容。

基于文档的分块过程：

识别章节标题：使用“#”作为章节标题的标记。
分割文本：根据章节标题分割文本。

分割结果：

块1: 第一章\n这是第一章的内容。
块2: 第二章\n这是第二章的内容。

4. 语义分块（Level 4: Semantic Chunking）

描述

语义分块是一种高级的文本分割方法，旨在根据文本的语义内容和上下文关系来分割文本，而不是简单地依赖字符数或固定的分隔符。

实现

利用嵌入（embeddings）技术，将文本转换为向量表示，然后通过计算这些向量之间的相似性来确定分割点。

优点

能够保留文本的语义关系，提高信息检索和处理的效果。
适用于各种类型的文本，尤其是结构复杂的文本。

缺点

需要计算嵌入和相似性，计算量较大。
需要依赖预训练的语言模型，可能需要较高的计算资源。

举个例子

假设我们有一段文本：

机器学习是一种人工智能技术。它使计算机能够从数据中学习和改进。深度学习是机器学习的一个子领域，使用神经网络进行复杂的数据分析。

语义分块过程：

文本嵌入：将文本转换为嵌入向量。
相似性计算：计算每个句子之间的相似性得分。
确定分割点：根据相似性得分，确定分割点。

假设相似性得分如下：

句子1和句子2的相似性得分高
句子2和句子3的相似性得分低

根据相似性得分，我们可以将文本分割为两个块：

块1: 机器学习是一种人工智能技术。它使计算机能够从数据中学习和改进。
块2: 深度学习是机器学习的一个子领域，使用神经网络进行复杂的数据分析。

5. 代理分块（Level 5: Agentic Chunking）

描述

代理分块是一种利用大型语言模型（LLM）来动态确定文本分割策略的方法。它依赖于LLM的智能和上下文理解能力，根据具体的任务和上下文来决定如何分割文本。

实现

通过让LLM作为“代理”来分析文本，并根据需要生成或调整分块策略。

优点

利用LLM的智能和上下文理解能力，能够动态调整分块策略。
适用于各种类型的文本和任务，能够根据具体需求进行调整。

缺点

需要依赖LLM进行分析，计算量较大。
实现过程相对复杂，需要结合多种技术和方法。

参考：https://medium.com/@anuragmishra_27746/five-levels-of-chunking-strategies-in-rag-notes-from-gregs-video-7b735895694d

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561642&idx=1&sn=ba0fdae3be09969f3d62fe17bacd0d67

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

纯CPU跑Llama3.2+LoRA Adapter

在CPU上高效使用GGUF格式的LoRA Adapter

校准数据集对模型量化的影响

让LLM来裁定LLM

记一次成功的小模型coding微调

深入理解 1-Bit LLMs：从 BitNet 到神经网络的本质

文生视频-Mochi 1

4o-realtime构建客服系统-Chainlit

4o-realtime API调用分析

微软OmniParser项目

MS-UFO论文读书笔记

智能体时代-微软UFO

端到端的GPT微调实践: 基于Personas的数据合成

GPT-4o-Realtime应用场景

此量化(我的)非彼(英伟达的)量化

金庸全集: Voice-RAG

Llama-Omni的验证-LLM多模态系列1

AI训练中优化器的选择

Flux1的验证

PyTorch LoRA SFT后转化成ONNX Runtime进行推理

ColPali实现视觉RAG

解密vLLM推理快的原因

微调STT模型Whisper

训练中的梯度检查点（Gradient Checkpointing）

用GTP-4o实现Reasoning CoT

训练/微调工具大比拼

惊艳! GPT-4o Audio

剪枝与蒸馏的最佳实践

AI训练中的优化器

AI中的混合精度（AMP）

Pixtral与Phi-3.5-Vision

AI模型知识蒸馏

LLM推理性能测试与优化工具-第二篇

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉