记得给 “应用机器学习” 添加星标,收取最新干货
作者:香港城市大学 汪宇豪
今天跟大家分享一篇WSDM 2024来自香港城市大学和华为诺亚提出的一种多场景推荐的增强方法,以改善在多场景推荐中冷启动场景的表现。具体地,本文提出了基于扩散模型(Diffusion Model)的多场景建模范式,独特地设计了variance schedule和利用了分类器,可以兼容不同的主干模型,并在两个公开数据集取得了更有效和更稳定的表现。
论文地址:https://dl.acm.org/doi/10.1145/3616855.3635807
代码:
1. Torch: https://github.com/Applied-Machine-Learning-Lab/Diff-MSR 2. Mindspore: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/Diff-MSR
背景
多场景推荐利用来自多个业务场景(例如电商平台的商品类目)的数据以同时提升这些场景上的推荐准确率,并解决数据稀疏问题。由于流行程度不同,这些场景的历史交互数量也不同,所以可以自然地按照数据量划分成丰富场景和冷启动场景,之前的研究也强调了冷启动场景的重要性,尤其是对业务发展和用于满意度的作用。然而,由于丰富场景和冷启动场景数据量之间的差距大,之前的多场景模型往往有以下两个缺点:首先场景特有参数训练不充分,能从稀疏样本中学到的知识有限;其次场景共享参数往往会被丰富场景所主导,并出现负迁移现象,这是由于不相关的信息在场景之间传递。
近期扩散模型(Diffusion Model)引起了非常多的关注,因为它具有高质量生成的能力,尤其是在计算机视觉领域。想在推荐领域引入它很有挑战性,一方面。对于多场景推荐来说,不同领域之间存在复杂的共性和特性。相比之下,现有的冷启动推荐模型只考虑新物品或新用户,这不是同一个维度的问题。其次,现有的扩散模型只能学习到域内分布,因此它无法建立不同场景之间的联系。
我们则是第一个探索多场景推荐的冷启动场景问题,具体地,我们通过加噪的表征和分类器明确地建立了不同场景之间的共性和特性。此外,在丰富场景的帮助下,为冷启动场景生成了高质量且信息丰富的表征。因此,我们是以数据驱动的生成方式解决了训练不足和负迁移的问题。
预备知识
一般地,深度推荐系统(Deep Recommender Systems, DRS)首先将原始特征映射为稠密的表征,并使用特征交互模块捕获不同特征域之间的低阶和高阶交互。接着,输出层产生最终推荐结果,例如对于点击率(CTR)预估任务,预测标签为1代表点击,而标签为0代表不点击。相对地,以往的多场景推荐模型可以大致分为两类,第一是预训练+微调,第二类似于多任务学习(multi-task learning),往往通过场景共享和特有参数来建模场景之间的关系,即共性和特性,比如MMoE给每个场景都建立的自己的塔,通过底部的专家网路和门机制提取有用的信息。
扩散模型如下图所示,主要包括正向和反向过程。前者旨在加入随机噪声,后者则从是降噪和恢复样本。训练的目标(只存在于反向过程)是通过模型生成一个与实际数据分布极为相似的数据分布,这等同于通过变分下界优化负对数似然。
方法
为了解决现有多场景推荐模型在冷启动场景上的学习不足和负迁移问题,我们提出了Diff-MSR作为一种增强的范式,与主流的多场景模型(包括预训练+微调和多任务学习)兼容。具体来说,它配备了我们明确设计的分段variance schedule和引入的分类器。同时,Diff-MSR由以下四个阶段组成:预训练、扩散、分类和微调。该算法流程总结在下图。
框架的直观解释如下图。直觉上说,从计算机视觉的角度来看,一个看起来像猫的狗的模糊轮廓可能会帮助在猫领域中进行高质量的OOD图像的生成,其原因是轮廓信息在计算机视觉中具有丰富信息且重要,比如典型的语义分割任务。同样地,在推荐系统中,每个用户画像和物品特征的表征的拼接也可以被视为一个“图像”。因此,基于这个想法我们提出了Diff-MSR。借助新引入的分类器,通过加噪表征(包含模糊但信息丰富的轮廓),明确建立了丰富场景和冷启动场景之间的联系,从而增强了冷启动场景的表现。
实验
我们在实验部分主要回答了三个研究问题:
① Diff-MSR作为一种范式,对于不同的多场景推荐骨干模型是否有效且兼容? ② 与当前最先进的生成方法相比,Diff-MSR的表现如何? ③ 我们引入的分类器和设计的分段variance schedule有哪些效果?
数据集
我们在两个公开数据集进行了实验,分别是Douban和Amazon-5core,每个数据集都有三个场景,选择的冷启动场景分别是Music和Beauty,评价指标选择AUC。
兼容性实验
我们在两类共八种主干模型上验证了Diff-MSR作为多场景建模范式的兼容性,第一类是预训练+微调,包括FNN, xDeepFM, DCN, 以及PNN。第二类是多任务框架,包括MMoE, PLE, STAR, 以及AITM。如下表所示,Diff-MSR都取得了显著超过主干模型的表现。
对比实验
我们对比了五种生成模型作为基线方法,他们以往在计算机视觉任务上取得了优秀表现。需要注意的是,他们和原本的扩散模型一样,都存在只能生成域内分布的缺陷,不能生成域外(out-of-distribution)数据。从上表结果可以看出,扩散模型的方法取得了更好和更稳定的表现。
消融实验
我们在Douban数据集进行了消融实验,分成两方面,一方面是分类器的效果,我们对比了“Diff”(见上表),虽然它也能取得不错的效果,但无法利用其他场景的信息,所以表现比完整版的Diff-MSR差。
另一方面为了验证提出的分段variance schedule的效果,我们对比了常用的线性和cosine方案。它效果更好可能是因为在正向扩散过程的前几步中,它更好地保持了表征的具有丰富信息的“轮廓”,如下图所示。
超参分析
我们在Douban数据集对扩散模型本身的超参数,即训练目标进行了实验,结果如图4显示,‘pred_v’是最好的方案。
更多细节请见原始论文。
同时欢迎关注我们的知乎账号:应用机器学习
(https://www.zhihu.com/people/aml_cityu)