在当下数据洪流涌动的时代,自然语言处理(NLP)技术如同破浪前行的巨轮,以前所未有的加速度拓宽着人工智能的疆界。在这场技术革新的浪潮中,无监督预训练模型凭借自我学习能力脱颖而出,成为行业前行的重要指引,引领着新方向。
当地时间8月11日至16日,国际计算语言学年会(ACL 2024)在泰国曼谷召开。在众多学术成果中,《Generative Pretrained Structured Transformers:Unsupervised Syntactic Language Models at Scale》凭借其独到的观点和前瞻研究,被主会收录,对NLP领域产生了积极影响。
为分享这一学术成果,本期“论文秀Live#3”线上直播活动,定于2024年8月14日18:30至19:30,与您相约云端。本次直播有幸邀请到蚂蚁技术研究院副研究员——胡翔,他将介绍《可高效预训练的无监督句法Transformer语言模型》的研究内容。
本篇论文提出一种可以无监督预训练的句法语言模型GPST。句法语言模型的特性在于类似人类语言理解一样还原字到词,词到短语,短语到句子的组合过程(图1),同时还保留Transformer模型强大的拟合能力。
△图1
句法语言模型的概念提出至今已有几十年,但一直需要人工标注的句法树来提供结构监督信号,而人工标注的句法树数据量有限,导致句法语言模型预训练语料规模受限,无法scale up。本文不仅提出一种全新的生成式句法语言模型生成范式,同时还提出基于该范式的高效无监督预训练方法,首次实现句法语言模型在10B数据量级的预训练。其核心技术在于应用一种log N复杂度的组合语言模型R2D2来构造结构化表征, 并通过"先理解,再背诵"的方式重建语言组合理解的过程(图2)。
△图2
实验结果显示,在同等预训练语料规模下,GPST在文本理解、摘要、句法泛化等下游任务显著领先GPT-2,并且在训练时间上相比之前无监督句法语言模型提高50倍以上。
论文亮点聚焦
1、创新无监督预训练GPST模型:
本文提出GPST模型,突破传统句法语言模型依赖人工标注数据的限制,实现10B级数据量的无监督预训练。该模型融合Transformer的强大拟合能力与人类语言理解过程,提升文本处理能力。
2、高效训练与卓越性能:
GPST采用高效无监督预训练方法,训练时间相比过往无监督句法语言模型提升50倍以上。在文本理解、摘要生成及句法泛化等任务中,GPST展现出明显优于GPT-2的性能,标志着句法语言模型领域的重大进展。
直播观看指南
· 时间:2024年8月14日18:30-19:30
· 平台:微信视频号【蚂蚁技术研究院】、【蚂蚁技术AntTech】、B站【蚂蚁技术研究院】同步直播,敬请预约关注!