经典思辨｜GENRET：学习如何为生成式检索进行分词

文摘科技 2024-09-09 10:00

提要

本文是对发表于NeurIPS'23的文章《Learning to Tokenize for Generative Retrieval》的解读。该文将图像生成领域经典模型Vector Quantized Variational Autoencoder（VQ-VAE）的思想引入生成式检索，提出了一种新的文档标记化优化方法。作为信息检索的新范式，生成式检索通过生成式语言模型为给定查询直接生成文档标识符（docid）的排名列表。为每个文档分配唯一的docid（文档标记化）是这一过程的关键，因为它决定了模型能否准确检索到目标文档。本文提出了一种新的文档标记化学习方法GENRET。GENRET通过离散自动编码技术，将完整的文档语义编码为docid，并通过渐进式训练捕捉docid的自回归特性。同时，本文采用多种聚类技术稳定训练过程。基于文档集合的语义嵌入，生成式检索模型能够根据docid与查询的语义相关性，生成最相关的docid。实验表明，GENRET在NQ320K数据集上达到了最先进水平，并在MS MARCO和BEIR数据集上优于基线方法，展现了出色的泛化能力。

研究背景

MPIWasm运行时基于Wasmer运行时实现，支持：（1）通过将基于MPI的HPC应用程序编译为Wasm来实现高性能执行；（2）通过零复制内存操作实现 MPI 调用的低开销；（3）支持高性能互连，例如Infiniband和Intel OmniPath；（4）通过在Wasm和主机MPI库间提供转换层使得开发人员无需了解目标 HPC 系统上存在的特定MPI库或网络互连。

文档检索任务可以被形式化为从文档集合D中检索与查询q相关的文档d的过程。集合中的每个文档d被视为由一系列标记组成的纯文本，表示为d，标记的总数为|d|。对于生成式检索模型来说，直接生成通常较长的原始文档是具有挑战性且计算效率低下的。因此，大多数现有方法依赖于一种称为文档标记化的技术，将文档d表示为较短的离散标记序列，称为docid，表示为z。每个标记z是一个从1到K的分类变量，docid的长度为M。图1展示了一个M=3、K=64的文档标记化示例。

作为原始文档的另一种序列表示，标记化后的docid z应满足以下两个属性：(i) 不同的文档具有简短但不同的docid；(ii) docid尽可能多地捕捉其关联文档的语义信息。由于z是一个固定长度且通常比原始文档d短的序列，因此模型的训练和推理可以更加简单和高效。作者采用标记化模型Q，将文档d映射为docid z。在将每个文档标记化为docid z后，生成式检索模型P通过自回归生成查询q到docid z的映射，以检索相关文档。

方法设计

传统上，文档标记化是通过固定的预处理步骤完成的，例如使用文档标题或从BERT获得的层次聚类结果。然而，研究表明，这些临时的文档标记化方法通常无法完整地捕捉文档的语义。例如，网页的标题可能不存在或与网页内容的相关性较低，基于聚类的docid则在离散空间中随意定义文档。

本文提出了一种基于离散自动编码的新标记化学习方法GENRET，用于以端到端的方式学习语义docid。图1概述了所提出的方法。GENRET包含三个主要组件：(i) 基于序列到序列的检索模型P，(ii) 文档标记化模型Q，以及(iii) 重构模型R。文档标记化模型将文档d标记为唯一的离散变量z，检索模型被训练为在给定查询q的情况下生成潜在变量z。此外，重构模型用于从z重新生成原始文档，以确保z尽可能捕捉到原始文档的语义。

参考Google在2022年提出的DSI，本文采用编码器-解码器结构的Transformer来实现生成式检索模型。具体来说，给定输入文本d，基于T5的标记化模型对d和docid前缀z进行编码，并在时间步生成文档d的潜在表示。然后，标记化模型为每个文档生成一个标记。在每个时间步，本文定义了一个外部嵌入矩阵，称为Codebook，其中K是离散潜在空间的大小，包含K个嵌入向量，每个向量可以视为一个分段的中心点。基于Codebook，离散潜在变量通过点积查找计算得出。

图1：文档通过分词模型生成离散标记序列示例。

文档重构模型

标记化模型Q生成的docid需要捕捉文档的语义信息。为此，本文提出了一种自动编码训练方案，其中设计了一个重构模型R，通过使用z预测文档d来迫使标记化模型Q生成可以重构回原始文档的docid z。重构模型的输入是docid z，输出是其关联的文档d。首先使用标记化模型的Codebook将z嵌入到表示矩阵中。然后，本文设计了一个基于检索的重构模型，通过从文档集合D中检索与输入z对应的目标文档d来进行预测。

实验评估

表1: NQ320K 数据集上的表现结果。实验结果表明GENRET优于预训练密集检索模型 GTR 以及之前最好的生成式检索方法 NCI。

数据集和评估指标

在本论文中，作者在三个广泛使用的文档检索数据集上进行了实验：NQ320K、MS MARCO 和 BEIR。在 NQ320K 数据集中，作者将测试集划分为已见测试集和未见测试集，以评估模型在未标注文档上的泛化能力。

在 NQ320K 数据集中，作者使用 Recall@1、Recall@10、Recall@100 和 MRR@100 作为评估指标。在 MS MARCO 数据集中，使用 Recall@1、Recall@10、Recall@100 和 MRR@10 作为评估指标。在 BEIR 数据集中，使用 nDCG@10 作为主要指标，并计算多个下游子数据集的平均 nDCG@10 作为总体指标。

基线选择

作者考虑了三种类型的基线：稀疏检索方法、密集检索方法和生成式检索方法。稀疏检索基线包括：BM25和 DocT5Query。密集检索基线包括：DPR、ANCE、Sentence-T5、GTR和 Contriever。生成式检索基线包括：GENRE、DSI、SEAL、CGR-Contra、DSI-QG、NCI和 Ultron。以下三个基线使用与 GENRET 相同的预训练语言模型 T5：(i) Sentence-T5 输出连续向量，(ii) GENRE 输出文档标题，(iii) DSI-QG 输出聚类 ID，而 GENRET 使用所提出的标记化方法学习输出 docid。

表2: MS MARCO数据集上的表现结果。实验结果表明GENRET 优于生成式检索方法如 Ultron 和密集检索基线如 ANCE 和 Sentence-T5。

NQ320K 数据集上的表现结果

表1展示了在 NQ320K 数据集上的实验结果。GENRET 优于强大的预训练密集检索模型 GTR 以及之前最好的生成式检索方法 NCI，在 NQ320K 数据集上确立了新的最先进水平。此外，作者的结果显示，现有的生成式检索方法在已见测试集上表现良好，但在未见测试集上落后于密集检索方法。例如，NCI 在已见测试集上的 MRR@100 达到 76.8，高于 GTR-Base 的 65.3。然而，在未见测试数据上，NCI 的表现不如 GTR-Base。相比之下，GENRET 在已见和未见测试数据上都表现良好。这一结果突显了 GENRET 通过端到端优化学习具有语义的离散 docid，从而结合了密集和生成式检索优势的能力。

MS MARCO数据集上的表现结果

表2展示了在 MS MARCO 数据集上的实验结果。GENRET 优于生成式检索方法如 Ultron 和密集检索基线如 ANCE 和 Sentence-T5。此外，先前的生成式检索方法（如 GENRE 和 Ultron）使用了标题和 URL 等元数据，虽然在 NQ320K 数据集上表现不错，但在 MS MARCO 数据集上相较于密集检索和稀疏检索方法表现较差。这可能是因为 NQ320K 数据集检索的是维基百科文档，元数据如标题能够有效捕捉文档的语义。而 MS MARCO 数据集是一个网页搜索数据集，元数据往往无法充分表征文档，从而导致生成式检索模型的性能下降。相比之下，GENRET 学会了生成能够有效增强生成式检索模型的语义 docid。

BEIR数据集上的表现结果

表3展示了在 BEIR 的六个数据集上基线方法和 GENRET 的实验结果。这些数据集代表了多样的信息检索场景。GENRET平均来说优于强大的基线方法，包括 BM25 和 ST5 GPL，并且相比之前最好的稀疏和密集检索方法取得了有竞争力的结果。此外，GENRET 相比使用标题作为 docid 的先前生成式检索模型 GENRE 显示出显著改进。与此同时，GENRE 在某些数据集上表现较差，如 BEIR-Covid 和 BEIR-SciDocs。这可能是因为这些数据集中的文档标题未能充分捕捉其语义内容。

表3: BEIR数据集上的表现结果。实验结果表明GENRET 优于 BM25、ST5 GPL 和 GENRE。

总结

该论文介绍了一种用于生成式检索的文档标记化学习方法，称为 GENRET。该方法通过离散自动编码方法将文档标记化为简短的离散表示（即 docid），从而确保生成的 docid 的语义。作者提出了渐进式训练方法和两种多样化聚类技术来增强模型的训练。在各种文档检索数据集上的实验证明了该方法的有效性。

编辑：申海洋

原文作者：Weiwei Sun, Lingyong Yan, Zheng Chen, Shuaiqiang Wang, Haichao Zhu, Pengjie Ren, Zhumin Chen, Dawei Yin, Maarten de Rijke, Zhaochun Ren

数据空间技术与系统

数据空间技术与系统全国重点实验室面向国家数据空间建设的中长期战略需求和重大任务，开展数联网基础软件与数据空间操作系统的技术体系、标准规范、核心系统、试验环境、应用示范与开源生态等重点任务研究。

最新文章

经典思辨｜Collie：查找 RDMA系统中的性能异常

人民网、新华网发布！聚焦共建共享共治全球数据基础设施数联网高峰论坛在京成功举办

经典思辨｜Dirigent: 轻量化的服务器无感知计算编排系统

关注｜数据空间技术与系统全国重点实验室2024年度开放基金立项课题公布

学界前沿 | 如何解决大模型长距离依赖问题？HiPPO 技术深度解析

经典思辨｜(几乎）零气泡流水线并行

《智人之上：从石器时代到AI时代的信息网络简史》

诺奖专题 | 诺奖级成果开源！为什么说AlphaFold2足以改变全人类？

业界前沿 | PolarDB 的 BLOB 实现与性能优化

学界前沿 | 无需人工标注的 3D 目标检测：基于视觉语言引导的无监督学习方法

经典思辨｜Spectrumize: 物联网卫星星地通信链路频谱优化

Kins（K3s in SuperEdge）海量 K3s 集群秒级部署

学界前沿 | 覆盖5.4w+图像，MIT提出医学图像分割通用模型ScribblePrompt，性能优于SAM

经典思辨｜WaDec：使用大语言模型反编译WebAssembly

业界前沿 | 浅谈 K8s Service 网络机制

经典思辨｜PowerInfer-2：在内存受限的移动设备上运行大型语言模型

业界前沿 | 一念 LLM 大语言模型推理加速

学界前沿｜英伟达 & MIT 提出 LongVILA ，从 8 帧到 1024 帧如何实现长视频理解的飞跃？

经典思辨｜GENRET：学习如何为生成式检索进行分词

经典思辨｜用于 WebAssembly 的灵活非侵入式动态插桩技术

业界前沿 | Runway踢馆Luma，重磅发布Gen-3 Alpha！10秒视频仅需90秒

学界前沿｜华中科技 & 地平线提出通用视觉 Backbone 网络， FLOPs减少 5.2倍，速度提高4.8倍！

经典思辨｜Mobile Foundation Model as Firmware: 将大模型作为移动设备的基础固件

业界前沿 | AI 技术演进与商业落地：从学术探索到创业实践的全景观察

学界前沿 | 突破内存瓶颈 KCache, 不需要任何训练，适用于各种主流结构，提升 LLM 大型语言模型推理效率！

经典思辨｜DistFlashAtten：面向长上下文大语言模型训练的内存高效的分布式注意力机制

业界前沿｜微软开发者大会，Copilot Agents发布，掀起新一轮生产力革命！

学界前沿｜上海AI lab发布MathBench，GPT-4o的数学能力有多强？

经典思辨｜为使用辅助AR眼镜的手语用户提供的紧急呼叫服务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉