面向目标的观点词抽取(Target-oriented Opinion Words Extraction, TOWE)是一个细粒度的情感分析任务,任务旨在从评论句子中抽取出给定目标(Target)对应的观点词(Opinion Words)。如下图所示,句子“The dishes are amazingly delicious but the waiter is so rude.”中包含两个目标,当给定目标分别是“dishes”和“waiter”时,TOWE需要抽取出“amazingly delicious”和“rude”分别作为“dishes”和“waiter”对应的观点词。最近,深度学习方法在这项任务上取得了显著进展。
然而,由于昂贵的数据标注过程,TOWE任务仍然受到训练数据稀缺的困扰。有限的标记数据增加了测试数据和训练数据之间分布不匹配的风险。在本文中,我们建议「利用大量未标记数据通过增加模型对不同分布变化的曝光来降低风险」。具体来说,我们提出了一种新颖的「多粒度一致性正则化(MGCR)方法」来利用未标记的数据,并专门为TOWE设计了两个过滤器来过滤不同粒度的噪声数据。四个TOWE基准数据集的广泛实验结果表明MGCR与当前最先进的方法相比具有优势。深入的分析还证明了不同粒度过滤器的有效性。
文章已被自然语言处理顶会COLING 2022接收,由东京工业大学、微软STCA、南京大学、微软亚洲研究院、以及西湖大学共同完成,共同一作为东京工业大学王一栋及吴昊同学。
论文链接:https://arxiv.org/pdf/2208.08280.pdf 代码链接:https://github.com/TOWESSL/TOWESSL
我们的方法:多粒度一致性正则化
为了减少引入大量未标注数据时带来的噪声,我们设计了一种新颖的「多粒度一致性正则化方法」(Multi-Grained Consistency Regularization ,MGCR),如下图所示。
其中,TOWE模型是一个基于BERT的神经序列标注网络。在每个训练批次中,我们对带标签数据(labeled data)施加标准交叉熵损失,并对无标注数据(unlabeled data)施加正则化损失。后者的伪标签由当前TOWE模型给出。我们训练模型使得模型在不同数据增强情况下输出与伪标签保持一致性。在得到含有噪声的伪标签之后,我们添加一个句子级和一个词级过滤器去过滤不准确的噪声伪标签。此外,MGCR利用预训练的情感分类器中的潜在意见词来更准确地过滤噪声。值得注意的是,我们在利用MGCR方法之前训练了一个目标词抽取网络对原始未标注数据进行目标词抽取。
具体来说,句子级别的置信度可由该句中每个单词的置信度取平均获得。低于预设阈值T的句子会在训练中被抛弃。
此外,在计算句子级别置信度之时,我们突出了有较大情感分类注意力分数的词的置信度,因为注意力分数越高的词越有可能是观点词。具体来说,我们从预训练的基于注意力的情感分类器参数中获得情感注意力分数。
为了进一步减少训练噪声,我们在过滤之后剩余的句子中加入了单词级别的过滤器。低于预设阈值的单词会在训练中被抛弃。
最后,对于无标注数据,训练目标是
实验
针对14res,15res和16res数据集,我们抽取了来自yelp的10万个句子做未标注原始数据;针对14lap数据集,我们抽取了来自amazon的10万个句子做未标注原始数据。
主实验表格如下,可以看出MGCR是TOWE任务目前的SOTA方法。
各个组件的对比消融实验如下,可以看出多粒度过滤器的重要性。
此外,我们还做了各种超参实验,详情请看论文。
总结
TOWE 任务存在由稀缺标记数据引起的分布变化风险。在本文中,我们提出了MGCR方法,通过利用未标记的数据来增加模型对不同分布变化的曝光,自然可以降低风险。在MGCR方法中,设计了两个不同粒度的过滤器,即句子级(粗粒度)和词级(细粒度)基于置信度的阈值过滤器,用于过滤嘈杂的句子和单词以获得高质量的曝光。为了进一步强调学习过程中可能出现的意见词,我们采用了预训练的情感分类器,并将情感注意力分数合并到句子级过滤器中。实验结果表明,我们的MGCR方法明显优于所有其他TOWE方法,并在四个TOWE数据集上实现了最先进的性能。深入的分析证明了MGCR中每个组件的有效性。
Reference
本文所介绍论文:Wang Y, Wu H, Liu A, et al. Exploiting Unlabeled Data for Target-Oriented Opinion Words Extraction. COLING 2022.