HtmlRAG：利用 HTML 结构化信息增强 RAG 系统的知识检索能力和准确性

文摘 2024-11-15 07:45 福建

.01

概述

在大型语言模型（LLM）逐渐普及的今天，检索增强生成（Retrieval-augmented Generation，简称RAG）技术逐渐成为提高AI知识处理能力、减少模型幻觉（hallucination）的关键手段。通过将外部知识库和生成模型相结合，RAG为如ChatGPT等多种商业应用提供了重要支持。然而，当前RAG的实现方式仍面临一项根本性挑战，即在知识处理过程中对HTML网页结构与语义信息的损失。

对于复杂的网页内容来说，将HTML文档简单地转换为纯文本输入往往会破坏原始格式，导致重要的上下文信息丢失，特别是表格类内容。这一问题长期以来困扰着RAG系统的优化。为了解决这个难题，中国人民大学高瓴人工智能学院和百川智能科技的研究团队提出了一种创新的解决方案——HtmlRAG，它通过HTML格式而非纯文本的方式来传递和处理检索到的知识，从而保留更丰富的语义和结构信息。

那么，HtmlRAG究竟是如何突破传统RAG系统的局限性，并带来显著性能提升的呢？本文将为大家深入剖析。

.02

为什么现有RAG系统在处理HTML时捉襟见肘？

在传统的RAG实现中，开发者会使用多种方法优化内容流入模型的质量。例如，LangChain和LlamaIndex等框架中常用的查询改写、检索器、重排序器、精炼器、读取器等组件，能够增强文本检索的准确性。然而，这些方法在处理HTML内容时却面临诸多瓶颈：

HTML结构的丢失：HTML具有丰富的结构化标签，能够传递表格、分区等语义信息，简单转换为纯文本会破坏这些结构，使得模型在理解内容时丧失上下文。
现有精炼器的不足：当前的内容精炼方法主要依赖文本的分块处理（chunking），在面对长HTML内容时显得力不从心，且需要消耗大量计算资源，难以高效处理。
高昂的计算成本：长HTML内容需要大量的计算资源去精炼，而HTML中的CSS样式、JavaScript代码及注释等非核心信息又会大大增加词元数量，导致效率低下。

鉴于这些局限性，传统RAG系统在面对复杂HTML内容时表现出明显的不足。而HtmlRAG的创新之处在于，它不仅能够保留HTML的原始语义和结构信息，还通过一套独特的机制有效应对HTML文档的高词元负担。

.03

HtmlRAG的核心技术：从“纯文本”到“HTML结构”的转变

HtmlRAG的核心理念在于直接使用HTML格式作为知识检索的输入，以最大限度保留网页内容的语义和结构细节。为了有效处理复杂的HTML文档，研究团队设计了一套创新的两步式修剪机制，使系统能够在不失去重要信息的前提下，将繁杂的HTML内容高效处理为适合模型使用的格式。

Step 1：HTML清洗与树形结构转换

首先，HtmlRAG将所有检索到的HTML文档进行整合，并通过Beautiful Soup解析为单一的DOM树。与传统的DOM树结构相比，HtmlRAG采用了一种“块树”结构（block tree），通过maxWords参数控制粒度。这样一来，系统能够递归地将零碎的子节点合并为父节点，形成较大的信息块，并严格遵循单词数限制。通过这种方式，系统能够有效减少节点数量，显著降低了复杂HTML结构的处理难度。

Step 2：分步处理与语义精炼

在HTML文档被清洗并转换为块树结构后，系统会进入第二阶段的处理。HtmlRAG首先利用嵌入模型对清洗后的HTML输出进行处理，初步筛选出核心内容，接着通过生成模型对其进一步优化。这样的分步处理方式既保留了HTML文档的结构性信息，又能够避免长文本造成的高计算消耗。

实验数据：HtmlRAG在六个数据集上的表现胜出

在性能测试中，HtmlRAG表现出色，在六个数据集上全面超越了传统的纯文本处理方法。与常见的分块精炼法（如LangChain的实现）相比，HtmlRAG在处理HTML文档时显得更加精准，同时显著减少了对结构信息的损失。

研究表明，在重排序模块中，基于嵌入的密集检索器（dense retrievers）明显优于稀疏检索器BM25，尤其是基于编码器的BGE表现尤为出色。相较之下，基于解码器的e5-mistral效果则稍逊一筹。此外，传统的精炼器在长HTML文档的优化上存在明显不足，尤其是像LongLLMLingua这样的模型会在纯文本转换中丢失大量结构信息，而JinaAI-reader虽然可以从HTML输入中生成Markdown，但在面对长序列时存在逐字解码的计算瓶颈。

这些实验数据验证了HtmlRAG利用HTML格式进行知识处理的有效性，并表明了其在不同数据集上的广泛适应性。

.04

HtmlRAG的应用前景：引领RAG系统的新方向

HtmlRAG的成功不仅在于提升了RAG系统的知识处理能力，更开辟了基于HTML格式的知识检索和处理的新方向。这一技术对于有复杂信息处理需求的应用场景尤为关键。例如：

高结构化内容的AI应用：HtmlRAG能够保留并理解表格、列表、导航栏等高结构化信息，使其在财务数据分析、法律文件解析等领域有广泛的应用潜力。

内容复杂的网页数据处理：在新闻、学术、技术文档等信息密集型领域，HtmlRAG可以更好地保留内容的语义与上下文，提供更可靠的回答。

长文本的计算成本优化：通过减少非必要信息的参与，HtmlRAG实现了高效的内容处理，为开发者在构建AI应用时节省了大量资源。

面向未来的潜力

作为一种开创性的RAG方法，HtmlRAG提供了一个切实可行的解决方案，展示了HTML在AI应用中的独特优势。研究团队不仅证明了HTML格式在知识检索和生成中的价值，还为未来基于HTML的知识处理方法指明了方向。借助HtmlRAG，我们可以想象，未来的RAG系统会逐步整合更多的HTML处理工具，进一步提升内容解析的精准性和效率。

.05

结语

HtmlRAG的推出标志着RAG系统在知识检索与处理上的一次重要突破。通过直接使用HTML格式，HtmlRAG在提升语义保真度和结构信息保留方面表现出色，有效克服了传统纯文本方法的诸多缺陷。对于需要复杂信息处理的企业来说，这一技术不仅提供了即时的解决方案，更为未来的知识处理方式开辟了全新路径。

可以预见，随着HtmlRAG这一技术的深入应用和推广，RAG系统在各行业的AI应用中将展现出更强大的实力。在知识无比丰富的互联网世界中，HtmlRAG将引领RAG技术的升级和进化，让AI在理解和处理复杂信息时更上一层楼。

参考：

https://arxiv.org/abs/2411.02959
https://huggingface.co/papers/2411.02959

http://mp.weixin.qq.com/s?__biz=MzI0NTg0Njk1OQ==&mid=2247487471&idx=1&sn=8d6ad123b3cd632c6b45b0e77b6c50af

Halo咯咯

专注于技术知识整理，包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识，以及各种开源的内容～

BLIP3-KALE：包含 2.18 亿个图像文本对的开源数据集，通过知识增强的密集描述转换图像字幕

TabM：一种新的高效深度学习模型，专门针对表格数据处理

高效信息检索新方法：LangChain中Retriever的多种高级策略

Hugging Face 发布 SmolTools：使用 LLaMA.cpp 和小语言模型构建的轻量级 AI 驱动工具集合

LLM-KT：利用嵌入式 LLM 生成的功能增强协作过滤模型的灵活框架

ChatGPT Search：AI搜索引擎如何挑战Google霸主地位？

Run AI 开源 Run:ai Model Streamer：专门构建的解决方案，使大型模型加载更快、更高效

全新MaskGCT模型：中英文合成与声音克隆的完美结合

提升RAG性能的全攻略：优化检索增强生成系统的策略大揭秘 | 深度好文

OptiLLM：一个与 OpenAI API 兼容的优化推理代理，可以提高 LLM 的准确性和性能

12百万YouTube音频链接来袭：LAION AI的LAION-DISCO-12M如何重塑基础模型的机器学习研究

LLaVA-o1：第一个能够进行自发、系统推理的视觉语言模型，类似于 GPT-o1

平衡 RAG 系统的准确性和速度：优化检索技术的见解

以AlphaFold3为标杆：麻省理工学院的Boltz-1如何重塑生物分子预测

Qwen开源强大、多样、实用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Llama OCR：简简单单几行就可将图片或文档转成Markdown格式

Janus 系列：统一多模态理解和生成模型

OuteTTS-0.1-350M 发布：一种新颖的文本到语音 (TTS) 合成模型，利用纯语言建模，无需外部适配器

从此告别延迟！Hertz-Dev开创高效音频交互新模式

慕尼黑工业大学的这篇人工智能论文介绍了一种新颖的机器学习方法，通过模拟器反馈改进基于流的生成模型

YOLOv11：实时目标检测的新飞跃

LLMWare 发布 Model Depot：为 Intel PC 提供的 SLM 大集合

COMandA：一个用命令行简化大型语言模型操作的工具

从RAG到TAG：探索表增强生成（TAG）的力量

NotebookLlama：Meta 推出的开源交互式数据分析新工具

Promptwright：一个可以生成大规模合成数据集的Python库

HtmlRAG：利用 HTML 结构化信息增强 RAG 系统的知识检索能力和准确性

Hugging Face 发布 Sentence Transformers v3.3.0：NLP 效率的重大进展

Snowflake 和 CMU 的研究人员推出 SuffixDecoding：一种通过推测解码加速LLM推理的新型无模型方法

LLM微调的关键要点：如何打造高效、可靠的AI模型

TinyTroupe ：微软提供的一个实验性 Python 库，可以模拟具有特定个性、兴趣和目标的人。

LLM提示工程手册：如何优化LLMs以获得最佳结果

RAGCache：让RAG系统更高效的多级动态缓存新方案

LocalAI：免费开源的OpenAI替代品，轻松实现本地推理

探索 mcdse-2b-v1：全新高效的多语言文档检索模型

LOTUS：一个将自然语言与数据查询完美结合的创新引擎

超越 Text2SQL：TAG 如何解决复杂查询挑战

解锁图像数据的商业价值：Cohere推出Multimodal Embed 3

Weaviate：开源向量数据库重塑AI应用开发

Chai-1：一种用于分子结构预测的多模态基础模型

如何让大型语言模型部署更高效？Run:ai Model Streamer的革命性突破

Mixture of Experts模型面临安全挑战：新型泄漏攻击解析

突破传统！MIT的HPT模型助力机器人适应多任务环境

引入上下文检索(Contextual Retrieval)：提升AI模型的精准度与效率

实现上下文检索：提升文档处理的智能化的开源代码

AMD 发布 AMD-135M：AMD 第一个小型语言模型系列。

DeepSeek AI发布Janus：一款拥有图像生成能力的1.3B多模态模型

Llama 如何帮助 CodeGPT 成为顶级人工智能编码助手之一

提升开发效率：CodeGPT 为程序员提供全方位支持，让编程变得更简单、更高效

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉