NLP | XLNet :用于语言理解的广义自回归预训练论文详解

文摘   2024-11-08 19:09   菲律宾  
👆点击上方名片关注哟👆

本文是对XLNet论文的介绍与解读~

论文XLNet: Generalized Autoregressive Pretraining for Language Understanding

论文地址:https://proceedings.neurips.cc/paper/2019/file/dc6a7e655d7e5840e66733e9ee67cc69-Paper.pdf

1. 介绍

XLNet 是自然语言处理(NLP)领域的重要突破,它结合了前沿研究成果和创新的语言建模方法。在训练于大规模语料库后,XLNet 在多个 NLP 任务上(如 GLUE 基准测试)取得了超越现有技术的性能

XLNet 是一种自回归语言模型,其核心是基于变换器(Transformer)架构来输出标记序列的联合概率。不同于传统方法,XLNet 不仅考虑目标标记左侧或右侧的排列,还通过所有可能的排列进行条件建模。

在 NLP 中,无监督学习的预训练非常重要,常见的两大范式是:

  • 自动回归模型(AR):通过预测下一个标记进行学习(如 GPT)。

  • 自动编码器模型(AE):通过重构原始输入(如 BERT)来训练。

然而,这两种方法都有各自的局限性,XLNet 的创新在于通过一种称为**置换语言建模(PLM)**的方式,结合两者的优势,同时克服它们的缺陷。

2. 背景知识

2.1 自动回归模型(AR)

AR 模型的核心是根据已知序列预测下一个标记。这类模型通常是单向的,因此只能利用前向或后向的上下文。代表性模型包括 ELMo 和 GPT。

AR 的局限

  • 只能利用单向上下文(前向或后向)。

  • ELMo 通过独立训练的模型来处理双向上下文,但效果有限。


2.2 自动编码器模型(AE)

AE 模型试图重构输入序列。例如,BERT 使用了一种去噪自编码器(Denoising Autoencoder)的策略:将一些输入标记随机替换为 [MASK],并让模型恢复这些被掩盖的标记。

AE 的局限

  • 由于 BERT 在预训练时引入了 [MASK],而该标记不会出现在实际应用中,导致预训练与微调之间存在不匹配。

  • 模型独立地预测每个标记,无法捕捉标记之间的依赖关系.


3. XLNet 的创新训练目标

XLNet 通过一种全新的语言建模目标进行训练,即置换语言建模(PLM),它最大化所有可能排列下的条件概率,而不仅限于固定的顺序。这使得模型能够同时捕捉双向上下文信息,避免了 BERT 在使用 [MASK] 时的缺陷。

BERT 的对比示例

假设句子是“纽约是一座城市”。

  • BERT 独立预测“New”和“York”:
    logP(Newisacity)+logP(Yorkisacity)log P(New | is a city) + log P(York | is a city)

  • XLNet 按顺序预测这两个词:
    logP(Newisacity)+logP(YorkNew,isacity)log P(New | is a city) + log P(York | New, is a city)

XLNet 可以捕捉到“New”与“York”之间的依赖关系,而 BERT 则无法做到这一点。

变压器架构与 XLNet

XLNet 将 Transformer-XL 的长序列记忆能力整合进预训练模型,并采用了以下机制:

  1. 位置编码:跟踪序列中标记的位置。

  2. 分段循环记忆:在每层的内存中缓存段的隐藏状态,提升上下文利用效率。

XLNet 的架构与优势

XLNet 是一种广义自回归模型,通过置换语言建模(PLM)实现双向上下文建模,解决了 GPT 和 BERT 的局限。该模型在 20 个 NLP 任务上超越了 BERT,尤其在问答、情感分析、文档排名等任务中表现突出。

XLNet 的优势

  • 无需 [MASK] 标记:预训练和微调任务保持一致。

  • 捕捉双向上下文:克服了 GPT 的单向限制。

  • 提升任务性能:在多个基准任务上大幅超越 BERT。


4.结果

XLNet 的卓越性能在多个数据集上得到了验证:

  • RACE 数据集:英语考试题库,准确率高出最佳模型 7.6%。

  • SQuAD:阅读理解任务,比 BERT 高出 7 个百分点。

  • GLUE 基准测试:在 9 个 NLU 任务中全面优于 BERT。

  • ClueWeb09-B 数据集:用于文档排名,表现出色。


总结

XLNet 通过置换语言建模的自回归预训练方法,将 GPT 和 BERT 的优势结合起来,实现了更强的上下文理解能力。与 BERT 相比,XLNet 不仅捕捉到标记之间的依赖关系,还解决了 [MASK] 引发的预训练与微调不一致问题。这使得 XLNet 在各种 NLP 任务中取得了显著的性能提升。

主要贡献

  • 广义自回归预训练:结合 GPT 的自回归能力和 BERT 的双向建模能力。

  • 置换语言建模:在所有排列上计算对数似然,提高了上下文理解能力。

  • 双流注意力机制:提升了长序列处理能力。




想要了解更多内容,可在小程序搜索🔍AI Pulse,获取更多最新内容。

AI Pulse
"AI Pulse - AI脉动",探索AI技术前沿,深入解析算法精髓,分享行业应用案例,洞察智能科技未来。欢迎关注,与我们共赴AI学习之旅。
 最新文章