.01
.02
HTML结构的丢失:HTML具有丰富的结构化标签,能够传递表格、分区等语义信息,简单转换为纯文本会破坏这些结构,使得模型在理解内容时丧失上下文。 现有精炼器的不足:当前的内容精炼方法主要依赖文本的分块处理(chunking),在面对长HTML内容时显得力不从心,且需要消耗大量计算资源,难以高效处理。 高昂的计算成本:长HTML内容需要大量的计算资源去精炼,而HTML中的CSS样式、JavaScript代码及注释等非核心信息又会大大增加词元数量,导致效率低下。
.03
.04
.05
参考:
https://arxiv.org/abs/2411.02959 https://huggingface.co/papers/2411.02959