ICDM 2024 | GPRec: 两级用户增强建模

文摘   2024-11-06 10:00   中国香港  

记得给 “应用机器学习” 添加星标,收取最新干货


作者:香港城市大学 王叶晶

今天跟大家分享一篇来自于香港城市大学、小红书、吉林大学、南方科技大学、西安交通大学的深度推荐系统用户建模方法,文章已被ICDM 2024会议录用。该文章总结了现存的深度推荐系统用户行为建模范式,提出了两级用户行为建模增强方法(GPRec)。具体地,该文设计了用户群体以及个体建模,从两个角度对用户偏好进行独立建模,嵌入式地增强不同深度推荐模型性能。

论文地址:http://arxiv.org/abs/2410.20730

代码:https://github.com/Applied-Machine-Learning-Lab/GPRec

1 摘要

一般的推荐系统建模范式可以表示为 ,其中为推荐模型,为输入特征,包含用户侧特征以及物品侧特征(其他特征如交互环境等在本文中省略,可以认为包含在物品侧特征中)。为了增强用户建模,现存方法可以分为两类:1. 增强每个用户个体的建模,可以表示为(如APG、PPNet等);2.增强用户群体建模,根据用户特征将用户划入不同的群体中,利用群体信息辅助建模,可以表示为,其中为群体分类器。

然而,只关注其中一个级别的用户增强建模无法取得最优的效果:只关注用户个体建模,无法有效利用数据中的协同信息;只关注用户群体建模,会忽略群体模式与用户个人爱好存在冲突的情况。为了解决这个问题,本文提出两级用户增强建模方法GPRec,同时关注群体、个体层面的用户建模。

2 主要创新点

  • 指出了两级建模的重要性(同时考虑群体行为特点以及用户个性);
  • 为每个用户群体设置了对偶表征空间,分别表示正/负向群体行为特征,增强群体表达多样性;
  • 设计的框架适配性强,可以方便地适配现存模型结构;

3 方法

GPRec的整体设计如下图:(a)中展示了整体的数据流,(b)中为群体偏好建模方法,(c)中展示了三种可用的模型搭建策略,将GPRec与现存模型结合。如(a)所示,现存模型作为Backbone,基于所有输入特征得到Base隐层表征;GPRec的两级用户建模,分别得到群体隐层以及个体隐层;最终基于三者得到最终预测。

3.1 群体偏好建模

该模块的结构如上图(b)所示,图中以四个用户类别为例进行了说明。总体来看,该模块根据所有用户表征,将用户划分到四个类别中,结果用表示。图中的例子将用户划入了第二、三个用户群体,而不属于第一、四个群体。在此之后,该模块给用户分配对应的群体表示

具体来说,该模块首先设置了一个用户分类器,根据用户表征将用户划分到个群体中(为预先设置的群体数量)。对于每个类别,该模块用两个数值来分别表示属于或不属于该类别的概率:

相比现存方案中根据用户群体属性(如“性别”等)预先划分群体或使用余弦相似度划分群体的方法,GPRec能够通过更加灵活地捕捉非线性关系、根据数据分布变化调整用户划分结果。

考虑到中数值为分类器直接输出的结果,正负概率通常分布为两个相对接近0.5的数值(如0.3,0.7)而非极度接近0或1的两个值,这样模糊的划分结果不利于区分群体之间的行为模式。GPRec进一步利用Gumbel-Softmax,将分类器得分转化为近似分类结果,以第个群体为例:

其中为独立同分布的Gumbel噪声,为控制结果与0-1接近程度的超参数。

此外,该模块设置了正负群体表征来分别表示用户属于或不属于每个群体时的潜在特点,表示为,其中为划分结果为正向时的群体表征,为对应的负向表征。这样的设计显著提高了参数的利用效率。具体来说,对于组群体表征,现存方法只能表示个用户群体,本发明使用的方法可以表示个。

根据用户群体的划分结果以及群体表征,最终输出用户的群体表示:

为了使群体表示能够精确地捕捉用户偏好,该模块设计了辅助推荐任务:

其中是轻量推荐预测模型,是基于用户群体表示的偏好预测,y为真实指标,L为推荐任务的损失函数,为辅助推荐任务的损失(越小越好)。

此外,考虑到正负群体表征的设计旨在表达相反的群体偏好(正向v.s.负向),错误的群体划分结果应无法正确表示用户偏好,该模块还设计了对比任务:

其中,为将划分结果完全取反时的对比群体表示,为基于对比表示使用相同推荐预测模型得到的预测结果,为对比损失(越大越好)。

3.2 个体偏好建模

为了解决现存方案忽略个性偏好的问题,GPRec设计了该模块,基于用户个体表征挖掘用户个体偏好表示

具体来说, 包含了用户个性化信息对应的表征,如用户编号,用户行为序列。该模块根据挖掘用户个体偏好:, 其中为可学习的深度模型。

同时,考虑到用户个体表征可能蕴含了部分群体偏好,该模块设计了正交辅助损失使个体偏好尽可能避免与前一个模块中得到的群体表示提供相似的信息,进一步加强个体偏好建模:

3.3 模型搭建

GPRec是嵌入式推荐系统组件,可以灵活地结合任意基底模型。如何结合基底模型学习得到的隐层表示以及GPRec得到的群体、个体偏好表示是一个开放性问题。以三种结合策略为例:

  • 输入式:将三个表示视为最终预测模块的输入,
  • 动态参数:用生成的参数,基于预测,,
  • 模型集成:分别利用三个表示得到一个预测后进行集成,以均值集成为例,, ,,
3.5 模型优化

主要优化目标为,结合GPRec的辅助损失,最终优化目标为:

用于平衡各个损失的超参数。

4 实验

作者主要关注五个研究问题:

  • GPRec的总体表现;
  • GPRec对不同模型结构的适配性;
  • GPRec的核心组件的贡献;
  • GPRec的参数敏感性;
  • GPRec群组表征的多样性;
4.1 实验设置
  • 数据集:MovieLens1M,TenRec,KuaiRand;
  • Backbone:MLP,DeepFM,DCN,GDCN,FinalMLP,DESTINE;
  • Baseline:MMoE,PLE,STAR,APG,PEPNet, DGPM;
4.2 总体表现
  • GPRec总体表现较优,结合GDCN可以超过所有Baseline以及Backbone;
  • GPRec结合MLP时,可以击败所有基于MLP的Baseline(4-6行),但可能不如一些最新结构(如GDCN);
4.3 兼容性测试
  • GPRec兼容所有模型;
4.4 消融实验
  • 原始版本最优,详细结论参考原文;
4.5 参数实验
  • 主要研究用户群体数量()以及群组划分Gumbel-Softmax温度();
  • 结果表明群体数量、划分温度(概率更接近0/1)显著影响效果;
4.6 模型可视化
  • 该图展示了不同群体正/负向群体表征之间的相似度以探索多样性;
  • 整体来看相似度较低(除对角线外的区域呈淡绿色)->多样性强;
  • 同群体(同下标)正负向表征相似度极低(左下/右上对角线接近白色)->正负向群体表征极不相似,达到GPRec设计目的;

详细细节欢迎参考原文

END



同时欢迎关注我们的知乎账号:应用机器学习,获取更多内容
https://www.zhihu.com/people/aml_cityu


应用机器学习
介绍机器学习最近技术进展和资讯
 最新文章