顶会论文!缓解推荐系统中的样本标注偏差

文摘   2022-11-11 11:00  


作       者 | Yuchen Guo, Menghan Wang, Marshall Wu, Shawn Zhou

供       稿 | eBay Ads team

原文标题 MP2: A Momentum Contrast Approach for Recommendation with Pointwise and Pairwise Learning 

导读

个性化推荐是电商平台的重要组成部分,覆盖了交易的各个阶段,如首页、详情页、订单页等等。推荐系统模型经过了传统机器学习(协同过滤、LR、GBDT等)的充分发展之后,进入了深度学习时代与传统机器学习模型相比,深度学习模型具有特征表达能力更强,模型结构更灵活、更贴合业务场景的优点。


现有的深度推荐系统模型的训练目标通常采用值标签pointwise label, 即以用户点击/未点击,购买/未购买作为标签,但是二值标签的有限的表达能力可能无法表达不同程度的用户偏好,从而导致模型训练期间优化方向的冲突,我们称之为标注偏差(annotation bias)


我们利用序标签pairwise label无标注偏差的特性,提出了一个结合pointwise learning和pairwise learning的动量对比学习框架(MP2),采用动量更新并自动优化值标签权重,从而减轻标注偏差对模型训练的负面影响,致力于使模型能够产生稳定准确的商品表示向量。基于这份工作我们提炼出一篇论文,已经被数据挖掘顶会SIGIR2022 接收。

1

Part.1

标注偏差


Pointwise label使用显式的反馈来标记用户的偏好,如点击/未点击、购买/未购买等,用户点击了商品则标记为正样本1,表示用户对该商品的正向反馈,未点击则标记为负样本0。然而用户的偏好不是绝对的,有程度之分。


在不同的场景下,同一个商品可能使用户产生不同的行为。如图2所示,itemB在两个不同的上下文(与A比较和与C比较)中分别被标记为0和1,但无论是值0或1都无法表征出用户对itemB的准确偏好0.7本文将这种偏差称为标注偏差


标注偏差对深度模型的一个主要影响是,在训练过程中,同一个item的不同标签会给予模型方向相反的优化信号,从而使得网络权重的在训练过程中更加波动。


而 pairwise label表征的是用户对不同商品偏好的序关系,如在一次商品曝光中,用户选择点击itemA而未点击itemB,则产生一条样本:itemA > itemB。Pairwise label可以补充 pointwise label所缺失的偏好程度的信息,因此它可以辅助矫正pointwise label的标注偏差。


图 1 pointwise label vs. pairwise label

(点击可查看大图)

图2  推荐系统中的标注偏差

(点击可查看大图)



2

Part.2

模型框架


图3 「MP2」模型结构图

(点击可查看大图)


MP2采用当下流行的多塔结构

主要由三个子网络构成,包含一个user子网络和两个item子网络,两个item塔的损失函数分别对应pointwise loss和pairwise loss。


图4 三塔结构

(点击可查看大图)


MP2利用两个子网络的差异来解决训练过程中的标注偏差,这包括两个阶段:


(1)动量更新

由于受到标注偏差的影响,Pointwise loss对应的表示向量  '在梯度更新的过程中会产生较大波动,因此item momentum network   采用动量更新来替代传统的梯度反向传播,确保权重更新的稳定性,避免其“反复横跳”。


(2)值标签加权

利用两个item向量之间的差异来拟合波动性,并对pointwise loss进行加权。两个item向量差异越大,则pointwise label可信度越低,应置更低权重



3

Part.3

动量更新


什么是动量更新?

动量更新的算法思想是,参数更新时在一定程度上保留之前更新的方向,同时又利用当前batch的梯度微调最终的更新方向,简言之就是通过积累之前的动量来加速当前的梯度。当前后梯度方向一致时,动量梯度下降能够加速学习;而前后梯度方向不一致时,动量梯度下降能够抑制震荡。


图5 item塔的参数更新机制

(点击可查看大图)

与通过梯度反向传播更新权重  的子网络  (∙,  )不同,   (∙,  )通过平均  来更新  ,


公式如下:

  


动量更新使得  比  更新得更慢。其中  [0,1)是一个超参数,控制  的平滑度。


尽管具有标注偏差的样本可能给出方向相反的优化信号,但是item表示向量的波动可以被控制到很低水平。  越大,  的更新越缓慢。模型表现与 大小的关系如图6所示。

图6 模型表现与alpha大小的关系

(点击可查看大图)


学习目标通过  反向传播梯度来更新   (∙,  )每个step,参数  的更新会立即反映在一批的user表示向量中,使得user表示向量能够快速迭代。


整个网络的训练过程如图7所示

图7  网络训练过程

(点击可查看大图)



4

Part.4

值标签加权


图8  值标签加权

(点击可查看大图)


本文利用两个item向量之间的差异  = l  l表征pointwise标签的置信度, l表示两个item向量逐元素求差。  越大,则pointwise label可信程度越低。


因此可以使用与pointwise label置信度呈正相关  作为pointwise label的权重。当两个item向量的差异项较小时,权重  则越大,表示该值标签可信程度越高。


总的损失函数如下:

 

其中,

 

  

 

  为pairwise label的权重,可根据不同的训练任务进行调整。



5

Part.5

实验结果


(点击可查看大图)

从实验结果可以看出 MP2 在几个数据集上都取得了SOTA的表现(HitRate和NDCG),展示了该方法的有效性。此外,我们可以得到以下发现。


1) 使用多个loss的模型(即 MP2、T3 和 APPL)通常优于只用pairwise loss(Ranknet-NN 和 BPR)或pointwise loss(NeuMF)的模型,表明将pointwise learning和pairwise learning相结合在推荐系统中是一种有潜力的方法。 


2)基于pairwise learning的模型表现通常优于pointwise learning。


结语

文章研究了推荐系统中标注偏差,这一广泛存在却经常被忽视的问题,提出了MP2,一个基于动量更新的对比学习框架,结合值学习与序学习,从而缓解样本标注偏差。实验结果表明MP2比其他方法在通用指标上具有更大的优越性。


原文链接:

https://arxiv.org/abs/2204.08326

参考文献:

[1].https://blog.csdn.net/CRW__DREAM/article/details/124466642

[2].https://zhuanlan.zhihu.com/p/505769002


eBay技术荟
eBay技术荟,与你分享最卓越的技术,最前沿的讯息,最多元的文化。
 最新文章