IJCAI22 | 基于纯MLP方法的序列推荐模型

文摘科学 2023-05-13 09:30 中国香港

记得给 “应用机器学习” 添加星标，收取最新干货

作者：香港城市大学，悉尼大学李沐阳

1.引言

近年来，自注意力机制在序列推荐场景中展现出了极大的优势，在许多任务中取得了当前最优的表现。然而，自注意力机制的两个重要问题限制了其在此场景中的大规模应用和进一步发展，这两个问题分别是：

自注意力的时间复杂度是其输出序列长度的平方，使其在面对长交互序列时变得并不高效；
自注意力依赖于位置编码来学习序列信息，而在将自注意力应用的序列推荐的开山之作SASRec中，作者就指出位置编码的效果有时并不明显，甚至还会起到反作用。最近，多层感知机（MLP）结构的一系列进展显示，在不使用自注意力机制的情况下，仅仅使用多层感知机也能够达到极具竞争力的表现。基于此，我们提出MLP4Rec，一种利用三向信息融合，能够一致结合序列信息、嵌入向量语义、商品特征信息的模型结构。

如图所示，MLP4Rec 是一种具有交叉特征混合的新型三向信息融合方案，能够捕获所有项目特征之间的交互，同时应用了基于 MLP 模型的经典双向混频器关于项目显式特征的技术，从而了解用户在这些特征中的顺序偏好。

2 技术细节

2.1 参数设置

我们将项目参与者表示为U，项目为I。此外，每个商品都有一些相关的特征，例如类别和品牌，我们将这些特征表示为Q。我们将用户与之交互的项目排序为序列S，因此每个用户都有一个相应的序列，其中包含他曾经按时间顺序查看的项目。因此，项目推荐问题可以正式定义如下：给定用户U的历史项目序列S，目标是找到一个推荐模型f来预测给定用户下一个可能的项目I。

2.2 框架设计

MLP4Rec通过捕获3层信息从而提高预测准确度。第一个是时间信息，即S的时序依赖关系。第二个是项目嵌入中包含的兴趣信息，由于项目嵌入的不同通道代表不同的潜在语义，因此通道交互相关性对我们的任务也很重要。第三个是项目特征之间的相关性，它们共同有助于对项目的语义进行建模。通过在输入嵌入张量的不同方向上重复转置和应用MLP block，如图所示，MLP4Rec可以同时捕获序列、通道和特征的交互的相关性。

MLP4Rec由L层组成，其中每一层都有相同的设置：sequence-mixer、channel-mixer 和feature-mixer，所有L层共享相同的参数。在每一层中，我们首先针对不同的特征各自应用sequence-mixer和channel-mixer，然后利用feature-mixer来学习所有特征之间的相关性。

2.3 关键技术

2.3.1 嵌入层

我们将离散的项目 ID 和显式特征（例如类别和品牌）投影到维度为 C 的密集向量表示中，再将项目 ID 和显式特征的嵌入堆叠到单独的嵌入表中，其中嵌入表的行是每个嵌入向量，嵌入表的列包含通道信息。将所有嵌入表堆叠在一起后得到一个 3-d 嵌入表，如图所示。

2.3.2 Sequence-mixer

Sequence-mixer是一个MLP block，旨在学习整个项目的时序依赖关系。Sequence-mixer将嵌入表的行作为输入特征，并输出相同维度的嵌入表，其中所有的时序依赖都融合在每个输出序列中。设输入特征为整个序列中每个嵌入向量的第c个维度，如上图所示。输入特征之间的相关性是顺序的，以显示用户兴趣随时间的演变。第l层的sequence-mixer的输出表示为：

2.3.3 Channel-mixer

Channel-mixer 的目标是学习嵌入向量内的相关性。结束序列混合后，channel-mixer 将第t个项目嵌入维度作为输入特征，它们之间的相关性是跨通道的，从而使通道交互的相关性融合在输出序列内。我们可以将第l层的channel-mixer的输出表示为：

2.3.4 Feature-mixer

Feature-mixer 是将特征连接在一起的关键。完成序列和通道的混合后，时序和通道交互的依赖关系在每个序列中融合。但是，不同特征的嵌入表之间的信息仍然是相互独立的。Feature-mixer 可以将交互特征的相关性融合到每个序列的表示中，并且由于是最后一层，不仅需要传递特征信息，而且将每个特征内的序列和通道交互的依赖关系共享给其他特征，从而连贯地连接三向信息。我们将第 l 层的 feature-mixer 的输出表示为：

3 实验

3.1 性能比较

数据集：MovieLens-100k；Amazon-beauty 评估指标：命中率（HR）、归一化折扣累积增益（NDCG）和平均倒数排名（MRR）如上表显示，MLP4Rec 持续以显著的优势超越包括 MLP-Mixer+（ MLP-Mixer 的改进模型，将项目 ID 和特征的嵌入连接作为输入）在内的所有模型，这表明三向信息融合是一个重要的改进，共同捕获了序列、通道、特征交互的相关性。

3.2 模型复杂度比较

在模型复杂度方面，如上表所示，更少的模型参数不仅使 MLP4Rec 更易于训练，而且还降低了过度拟合的风险。MLP4Rec 的参数比自注意力模型和基于 RNN 的模型少，也比 MLP-Mixer+ 更简单，这可以归因于全连接嵌入层的去除。同时，尽管 MLP4Rec 具有卓越的性能，但它在内存效率方面也超过了其他模型。

3.3 参数影响

上图显示了层深度和嵌入大小对 MLP4Rec 和 MLP-Mixer+ 的影响。与 MLP-Mixer+ 相比，MLP4Rec 的性能在广泛的嵌入尺寸范围内更加稳健。

3.4 消融实验

MLP4Rec 在所有指标的两个数据集中都取得了比 MLP-Mixer+ 更好的性能，它们架构之间的唯一区别是 feature-mixer，因此本文通过以下几步消融实验来判断 feature-mixer 对MLP4Rec产生的影响：

(1) MLP-Mixer 以及 MLP-Mixer+，不包括项目特征

(2) MLP4Rec-Linear，用简单线性层代替 MLP4Rec 中的 feature-mixer

(3) MLP4Rec-Simple，只在MLP4Rec 的最后一层进行特征混合

(4) w/o Sequence-Mixer，没有 sequence-mixer 模块的简化MLP4Rec

(5) w/o Channel-Mixer，没有 channel-mixer 模块的简化 MLP4Rec

(6) w/o Feature-Mixer，没有 feature-mixer 模块的简化 MLP4Rec。从上表中，我们可以总结出：

（1）在不包含项目特征的情况下，MLP-Mixer 的性能明显较差。

（2）MLP4Rec-Linear 始终优于 MLP4Rec-Simple，这意味着仅在最后一层传达特征信息无法将交叉特征相关性充分融合到隐藏层表示中。

（3）MLP4Rec 在所有指标上始终优于 MLP4Rec-Linear 和 MLP4Rec-Simple，这归功于其通过feature-mixer进行的完全三向融合。

（4）Sequence-Mixer 在序列推荐中起着至关重要的作用，并且可以成功捕获序列模式。

（5）如果没有 channel-mixer，MLP4Rec 的性能也会显着下降。这是因为项目和特征嵌入层的各个维度无法相互通信，从而使隐藏层表示缺乏通道交互的相关性，导致性能变差。

（6）没有feature-mixer的MLP4Rec表现类似于MLP-mixer。根据和多个模型的对比以及对特定参数和 feature-mixer 的实验研究，MLP4Rec 展现了极具竞争力，甚至达到了当前最优的表现。更重要的是，MLP4Rec 的理论时间复杂度和空间复杂度均为线性增长，并且得益于多层感知机的特质，MLP4Rec 对序列信息有敏感性，使其相较于自注意力机制，有着更大的发展潜力和探索价值。

4 总结

在本文中，我们提出了一种简单但有效的架构 MLP4Rec，仅使用 MLP block 进行顺序推荐，通过连接用户历史交互数据中的顺序、通道和特征交互的相关性，以挖掘他们的偏好。MLP4Rec 表现出卓越的性能，为当前基于自注意机制的方法提供了强大的替代方案，其中采取的feature-mixer 使其能够处理异构特征并捕获它们的相关性。此外，MLP4Rec 更简单的模型架构和更少的模型参数增强了它在大规模实用推荐系统中的可扩展性，能有效解决当前自注意力机制的效率瓶颈，有望在电商、信息流、视频流、游戏首页、游戏商城等序列推荐场景落地应用。

点击左下角 “阅读原文”，获取原始论文。

http://mp.weixin.qq.com/s?__biz=MzI1MjE5MzgwOA==&mid=2247484333&idx=1&sn=20b6a06e131672f6e31455b1f9dcd6b7

应用机器学习

介绍机器学习最近技术进展和资讯

最新文章

香港城市大学 AI 机器学习数据挖掘大语言模型全奖PhD/联培PhD

CIKM 2024 | 高效鲁棒的正则化联邦推荐

ICDM 2024 | GPRec: 两级用户增强建模

NeurIPS 2024 | LLM-ESR: 大语言模型增强的长尾序列推荐系统

CIKM 2024 | 基于大语言模型的多场景推荐增强范式

CIKM2024 | 编辑医疗大模型的事实性知识和解释能力

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

KDD 2024 | 基于生成流网络的用户留存建模

KDD 2024 | ControlTraj: 利用路网拓扑指导轨迹生成

TKDE 2024 | 多层次图知识对比学习

CIKM 2024 | HierRec:多场景推荐——场景感知分层建模

CSUR 2024 | 多模态推荐系统综述

祝贺！赵翔宇老师获批第一期CCF-阿里妈妈科技袋基金大模型方向支持！

AML666！AML实验室在KDD CUP 2024 大语言模型多任务挑战赛中获得总榜亚军，全部5个赛道进入前三名的优异成绩

KDD 2024 | ERASE: 深度推荐系统中的特征筛选方法基准

NAACL 2024 | MILL: 一种利用大语言模型进行相互验证的零样本查询扩展方法

KAIS 2023 | AutoAssign+: 流媒体推荐中的自动共享嵌入分配设计

SIGIR 2024 | 当MOE遇上LLMs:针对医疗多任务的参数高效微调方法

CIKM 2023 | 用于医疗文本分类的多任务学习框架KEMTL

ICDE 2024 | 序列推荐的自增强序列去噪框架SSDRec

WSDM 2024 | 多场景推荐冷启动问题的扩散模型增强范式

重磅！OpenAI 官宣上线 GPT Store！超300万个 GPTs 大爆发

综述：LLM驱动的生成式信息抽取

ChatGPT官方登陆应用市场！OpenA再放大招，可精准识别中文

IJCAI22 | 基于纯MLP方法的序列推荐模型

Bard全面升级，新大模型能超GPT-4，谷歌反击ChatGPT

WWW 2023 | 基于MLP序列的自适应结构搜索推荐模型AutoMLP

WWW 2023|基于强化学习的多任务推荐系统

AAAI 2023 | 自动时空多任务学习AutoSTL

WWW 2023 | IMF: 用于链接预测的交互式多模式融合模型

基于反事实因果的图对比学习负样本生成

Decision Transformer 在优化用户留存中的应用

多行为推荐的去噪与提示调节

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉