KDD2024 | 最佳学生论文: 以数据为中心的序列推荐方法

科技 2024-09-12 08:02 新加坡

嘿，记得给“机器学习与推荐算法”添加星标

TLDR: 针对传统以模型为中心的序列推荐算法存在的数据质量等挑战，本文提出一种新的以数据为中心的范式DR4SR，用一个与模型无关的数据集再生框架来开发理想的训练数据集。该框架能够重建具有特殊跨架构泛化能力的数据集。为了适配不同的序列推荐算法，本文又引入了增强本文DR4SR+，其包含一个模型感知数据集个性化器，专门为目标模型定制重新生成的数据集。

论文：https://arxiv.org/abs/2405.17795

序列推荐算法是现代推荐系统中的一个关键组成部分，其旨在通过用户的序列交互记录捕获用户不断变化的偏好。近年来，人们在提高序列推荐方面做出了重大努力。其中包括开发复杂的深度模型，设计高效的训练策略，以及通过自监督学习来优化表示空间等等。以上这些方法遵循以模型为中心的范式，旨在为固定数据集开发更有效的模型，如下图所示。

然而，以模型为中心的这些方法往往忽略了数据内在的潜在质量问题，这可能会导致过拟合或放大数据误差等问题。为了应对这些挑战，研究者提出了以数据为中心的范式，其侧重于为固定模型开发高质量数据。比如，图结构学习旨在从图数据中发现有价值的结构。另外，GAN、VAE和扩散模型等生成模型已被用于合成新的训练样本。受以数据为中心的人工智能的启发，本文旨在为序列推荐模型生成一个富有信息量且可泛化的训练数据集，如上图下部分所示。

为了获得最优的训练数据，本文的关键思想是学习生成一个新的数据集，该数据集明确包含物品的转换模式。本文将推荐的建模过程分解为两个阶段:从原始数据集中提取过渡模式和基于学习用户偏好。然而，映射函数的学习是具有挑战性的，因为它涉及两个隐式映射:和。因此，本文旨在探索一个显式表示的物品迁移模式的数据集的可能性。因此本文显式地将学习过程分解为两个阶段，直观上更容易学习。因此，本文重点是学习一个有效的映射函数。本文将这一学习过程定义为数据集再生范式。

为实现数据集再生，本文提出一种新的以数据为中心的序列推荐范式DR4SR，其能够将原始数据集再生为富有信息量和可泛化的数据集。DR4SR整体的框架如下图所示。具体的，（A）本文首先构建了一个预训练任务，使执行数据集再生成为可能。（B）然后本文提出一种多样性促进的再生器来建模再生过程中序列和模式之间的一对多关系。（C）最后本文提出一种混合推理策略来重新生成一个具有平衡探索和利用的新数据集。

在重建数据集时会遇到一个新的挑战，即数据集重建过程独立于目标模型。虽然它显示了很好的跨架构泛化能力，但重新生成的数据集对于特定的目标模型可能不是最优的。因此，其目标是进一步将重新生成的数据集定制为特定的目标模型。然而，混合推理过程的不可微性带来了一个难点，即通过梯度反向传播优化数据集再生器变得不可行。为缓解上述挑战，本文将DR4SR扩充为一个模型感知的数据集再生过程，记为DR4SR+。DR4SR+考虑了每个目标模型的独特属性，并相应地修改重新生成的数据集，如图1所示。特别是，本文实现了一个数据集个性化器，它为重新生成的数据集中的每个模式分配一个分数。为防止模型崩塌，将数据集个性化器的优化制定为一个双优化问题，其可以使用隐微分有效解决。

为了验证DR4SR的优越性，本文将DR4SR框架与多种以模型为中心的序列推荐方法进行了整合，并在4个被广泛采用的数据集上进行了实验。实验结果表明，DR4SR具有良好的跨体系结构泛化能力以及以数据为中心和以模型为中心的范式的高度互补性。另外，实验结果也表明DR4SR+可以进一步增强再生数据集

更多技术细节请阅读原始论文。

欢迎干货投稿 \ 论文宣传 \ 合作交流

由于公众号试行乱序推送，您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容，请将本号设为星标，以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇

http://mp.weixin.qq.com/s?__biz=MzA4NTUxNTE4Ng==&mid=2247524866&idx=1&sn=6e6d70741a5638c3ca9a699e40cdde26

机器学习与推荐算法

专注于分享经典的推荐技术，致力于传播基础的机器学习、深度学习、数据挖掘等方面的知识。

最新文章

当MoE邂逅图学习: AnyGraph解密图大模型的Scaling Law

KDD2024 | 最佳学生论文: 以数据为中心的序列推荐方法

Kaggle大模型文本预测竞赛入门分享

CIKM2024 | 属性感知匹配的文本序列推荐算法

论文周报[0902-0908] | 推荐系统领域最新研究进展(15篇)

「小而美」的EasyRec来啦, 推荐系统迈入语言模型时代？

学术顶会变成了“大厂”顶会?

大模型推荐最新进展 | 含KDD, RecSys, CIKM, ACL等顶会文章

KDD2024推荐系统/计算广告/大模型论文整理(研究专题)

KDD2024推荐系统/计算广告/大模型论文整理(应用专题)

近期大模型时序预测顶会论文总结

SIGIR2024 | 对齐很重要! 大模型增强知识赋能传统序列推荐

论文周报[0826-0901] | 推荐系统领域最新研究进展(16篇)

ICML2024 | 维度坍塌视角下的大规模推荐系统

CIKM2024 | LightGODE: 挑战传统图推荐范式, 基于轻量级图ODE推荐算法

图像分割模型SAM-2在医疗领域应用总结

LEARN: 大模型知识增强的工业级推荐模型

论文周报[0819-0825] | 推荐系统领域最新研究进展(26篇)

KDD2024 | 用户图增强的联邦推荐系统

多模态融合最新前沿方向进展总结

RecSys2024 | 蒸馏很重要! 大模型赋能传统序列推荐

论文周报[0812-0818] | 推荐系统领域最新研究进展(16篇)

只要敢捞“偏门”，篇篇都是顶会顶刊！

抖音 | 搜索推荐算法工程师招聘

KDD2024 | PolygonGNN: 多边形几何形状的表征学习

RecSys2024推荐系统论文整理

科大讯飞 | 短视频精准推荐挑战赛Baseline

论文周报[0805-0811] | 推荐系统领域最新研究进展(21篇)

浙大数据智能团队最新综述: 生成式AI时代下表格数据增强进展与展望

导师放养, 偷偷发了顶会。。。

CIKM2024 | TWIN-V2: 超长用户行为序列建模在快手的应用

KDD2024 | GFN4Retention: 基于生成流网络的用户留存建模

想中稿顶会？来看看顶会审稿人怎么说

LLM101n 硬核代码解读: 超详解读numpy实现多层感知机MLP

论文周报[0729-0804] | 推荐系统领域最新研究进展(19篇)

最新综述 | 图压缩技术: 如何压缩图数据从而加速GNN训练？

IJCAI2024 | 利用基础模型的联邦推荐系统

CIKM2024 | COLT: 面向完整性的大模型工具检索

KDD2024 | 基于双重意图转换的搜索推荐联合模型

论文周报[0722-0728] | 推荐系统领域最新研究进展(14篇)

首届国家智慧教育平台 | 用户行为序列个性化推荐竞赛

ACM MM2024@Oral | DiffMM: 当多模态推荐遇上Diffusion Model

KDD2024 | 兴趣点推荐中的隐私风险研究

最新开源Transformer压缩与量化方法总结

2024年推荐系统技术全面综述：历史、现状、分类、应用与展望

论文周报[0715-0721] | 推荐系统领域最新研究进展(15篇)

SIGIR2024 | SelfGNN: 自监督图学习序列推荐

大模型微调与对齐在推荐系统中的应用总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

KDD2024 | 最佳学生论文: 以数据为中心的序列推荐方法

欢迎干货投稿 \ 论文宣传 \ 合作交流

推荐阅读

由于公众号试行乱序推送，您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容， 请将本号设为星标，以及常点文末右下角的“在看”。

由于公众号试行乱序推送，您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容，请将本号设为星标，以及常点文末右下角的“在看”。