KDD2024 | 最佳学生论文: 以数据为中心的序列推荐方法

科技   2024-09-12 08:02   新加坡  
嘿,记得给“机器学习与推荐算法”添加星标

TLDR: 针对传统以模型为中心的序列推荐算法存在的数据质量等挑战,本文提出一种新的以数据为中心的范式DR4SR,用一个与模型无关的数据集再生框架来开发理想的训练数据集。该框架能够重建具有特殊跨架构泛化能力的数据集。为了适配不同的序列推荐算法,本文又引入了增强本文DR4SR+,其包含一个模型感知数据集个性化器,专门为目标模型定制重新生成的数据集。

论文:https://arxiv.org/abs/2405.17795

序列推荐算法是现代推荐系统中的一个关键组成部分,其旨在通过用户的序列交互记录捕获用户不断变化的偏好。近年来,人们在提高序列推荐方面做出了重大努力。其中包括开发复杂的深度模型,设计高效的训练策略,以及通过自监督学习来优化表示空间等等。以上这些方法遵循以模型为中心的范式,旨在为固定数据集开发更有效的模型,如下图所示。

然而,以模型为中心的这些方法往往忽略了数据内在的潜在质量问题,这可能会导致过拟合或放大数据误差等问题。为了应对这些挑战,研究者提出了以数据为中心的范式,其侧重于为固定模型开发高质量数据。比如,图结构学习旨在从图数据中发现有价值的结构。另外,GAN、VAE和扩散模型等生成模型已被用于合成新的训练样本。受以数据为中心的人工智能的启发,本文旨在为序列推荐模型生成一个富有信息量且可泛化的训练数据集,如上图下部分所示。

为了获得最优的训练数据,本文的关键思想是学习生成一个新的数据集,该数据集明确包含物品的转换模式。本文将推荐的建模过程分解为两个阶段:从原始数据集中提取过渡模式和基于学习用户偏好。然而,映射函数的学习是具有挑战性的,因为它涉及两个隐式映射:。因此,本文旨在探索一个显式表示的物品迁移模式的数据集的可能性。因此本文显式地将学习过程分解为两个阶段,直观上更容易学习。因此,本文重点是学习一个有效的映射函数。本文将这一学习过程定义为数据集再生范式。

为实现数据集再生,本文提出一种新的以数据为中心的序列推荐范式DR4SR,其能够将原始数据集再生为富有信息量和可泛化的数据集。DR4SR整体的框架如下图所示。具体的,(A)本文首先构建了一个预训练任务,使执行数据集再生成为可能。(B)然后本文提出一种多样性促进的再生器来建模再生过程中序列和模式之间的一对多关系。(C)最后本文提出一种混合推理策略来重新生成一个具有平衡探索和利用的新数据集。

在重建数据集时会遇到一个新的挑战,即数据集重建过程独立于目标模型。虽然它显示了很好的跨架构泛化能力,但重新生成的数据集对于特定的目标模型可能不是最优的。因此,其目标是进一步将重新生成的数据集定制为特定的目标模型。然而,混合推理过程的不可微性带来了一个难点,即通过梯度反向传播优化数据集再生器变得不可行。为缓解上述挑战,本文将DR4SR扩充为一个模型感知的数据集再生过程,记为DR4SR+。DR4SR+考虑了每个目标模型的独特属性,并相应地修改重新生成的数据集,如图1所示。特别是,本文实现了一个数据集个性化器,它为重新生成的数据集中的每个模式分配一个分数。为防止模型崩塌,将数据集个性化器的优化制定为一个双优化问题,其可以使用隐微分有效解决。

为了验证DR4SR的优越性,本文将DR4SR框架与多种以模型为中心的序列推荐方法进行了整合,并在4个被广泛采用的数据集上进行了实验。实验结果表明,DR4SR具有良好的跨体系结构泛化能力以及以数据为中心和以模型为中心的范式的高度互补性。另外,实验结果也表明DR4SR+可以进一步增强再生数据集

更多技术细节请阅读原始论文。


欢迎干货投稿 \ 论文宣传 \ 合作交流

推荐阅读

ICML2024 | 维度坍塌视角下的大规模推荐系统
CIKM2024 | LightGODE: 基于轻量级图ODE推荐算法
KDD2024 | 用户图增强的联邦推荐系统

由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇

机器学习与推荐算法
专注于分享经典的推荐技术,致力于传播基础的机器学习、深度学习、数据挖掘等方面的知识。
 最新文章