WWW 2023|基于强化学习的多任务推荐系统

文摘   科技   2023-04-25 09:30   中国香港  

记得给 “应用机器学习” 添加星标,收取最新干货


作者:香港城市大学  刘子儒

今天跟大家分享一篇来自于香港城市大学的多任务推荐论文,使用强化学习去增强多任务推荐系统的预测能力。具体的,该文采用会话形式的数据组合方式去提取隐含信息,并使用自适应调整的损失权重去提升模型的预测能力。

论文: https://arxiv.org/abs/2302.03328

1 论文概述

近年来,多任务学习(MTL)在推荐系统(RS)应用中取得了巨大的成功。然而,目前大部分基于MTL的推荐模型往往忽略了用户与项目互动的会话模式,因为它们主要是依据基于item的数据集而构建。平衡多个输出目标一直是该领域的一个挑战,现有的工作中通常通过使用线性估计的方法来避免这一情况。

为了解决以上这些问题,在本文中,我们提出了一个基于强化学习(RL)的MTL框架,即RMTL。该框架使用动态权重来平衡不同的推荐任务的损失函数。具体来说,RMTL结构可以通过以下方式解决上述两个问题:(1)从会话的互动中构建MTL环境;(2)训练多任务actor-critic网络结构,并能与现有的基于MTL的推荐模型兼容;(3)使用critic网络生成的权重来优化和微调MTL损失函数。在基于KuaiRand等多个公开数据集的实验证明了RMTL的有效性,其AUC显著高于SOTA基于MTL的推荐模型。此外,我们评估并验证了RMTL在各种MTL模型中的表现,证明了其具有良好的兼容性和可转移性。

2 基本框架

以下是框架概述,该文专注于CTR和CTCVR预测任务。根据数据特征,使用状态表示网络将这些特征转换为状态信息。该文中的Actor网络实际上可以是任何基本的MTL模型,在本例中,我们使用ESMM。给定输入状态,它输出特定的动作对,即CTR和CTCVR的预测结果。接下来是critic网络,它可以增强actor网络的性能。同时,它可以为特定任务生成自适应调整的损失权重,这将在后面详细介绍。

Framework

2.1 状态表示网络

状态表示网络是由嵌入层和多层感知机组成的,以提取用户-项目特征。分类特征首先被转换为二进制向量,然后输入到嵌入层中。此外,数值特征通过线性变换转换为相同的维度。以上过程翻译出的特征将被合并并进一步作为MLP网络的输入。隐藏层的对应激活函数是ReLU,输出层的激活函数是Sigmoid。

2.2 Actor网络

在强化学习的框架下,Actor网络可以被称为策略代理。以ESMM为例:共享底层被移除,我们使用两个平行的神经网络,由𝜃1和𝜃2参数化,分别表示两个任务的Tower层。每个Tower层的输出是确定性的动作值,代表特定任务的预测值。在MDP序列的训练过程完成后,本文基于加权BCE loss计算总体的损失函数,以解决收敛问题。此外,本文引入目标网络的思想到学习框架中,采用确定性策略梯度算法来克服收敛问题。

Actor

2.3 Critic网络

本文提出了一种Multi-critic结构,其中有两个并行的MLP网络共享一个底层层。Critic网络的第一部分是一个共享的底层层,它同时转换用户-项目特征和行动信息。然后将用户项目特征和行动信息组合为两个可微的行动价值网络的输入,这些网络由𝜙𝑘参数化,输出估计的Q值,并且本文计算平均TD误差𝛿以更新critic网络。目标损失函数的权重沿着Q值方向反向调整,以改善actor网络的优化过程,这是一个带惩罚变量𝜆的线性变换。

3 实验结果

最后,让我们来谈论实验部分。本文主要在两个基准数据集,RetailRocket和Kuairand上进行实验。评估指标是AUC分数,logloss和s-logloss,它定义为所有会话的平均Logloss。由于本文的RMTL结构修改了MTL目标损失函数,因此选择了具有其默认损失和一个基于RL的模型作为基准。本文总共进行了3个实验,整体性能、可转移性研究和消融研究,以说明该方法的有效性。

3.1 整体性能

在整体性能和比较方面,本文比较了五个基准多任务学习模型和RMTL模型在两个不同数据集上CTR/CTCVR预测任务的性能。在大多数情况下,PLE模型在所有多任务学习基准模型中表现最好,这证明PLE基准模型可以提高任务之间信息共享的效率,以实现更好的预测性能。本文提出的RMTL模型的每个版本都在两个数据集上表现出优于相应的非RL版本基准模型的结果。特别是在RetialRocket数据集上,RMTL模型的AUC增益约为0.003-0.005,比相应的基准模型高。通过利用强化学习框架的序列特性,RL增强方法能够处理基于会话的推荐数据,并通过自适应调整损失函数权重在CTR/CTCVR预测任务中取得显著改进。

result

3.2 可转移性研究

在RMTL方法在RetialRocket数据集上的转移性研究中,本文试图弄清楚从不同的策略学习到的critic网络是否可以应用于同一MTL基准模型并提高预测性能。例如,“mmoe-ESMM”表示应用从MMoE训练的critic网络的ESMM模型。可以看出:(i)三个MTL模型的预训练critic网络可以显著提高每个基准模型的AUC。(ii)三个MTL模型的预训练critic网络可以显著降低每个基准模型的Logloss。总的来说,预训练的ciritc网络能够提高大多数MTL模型的预测性能。

3.2 消融研究

实验的最后一部分是对于 RetailRocket 数据集上 PLE 模型的剖析研究,本文改变了原有设定中的一些部分,并定义了以下三个变体: (i) CW: 表示对整体损失函数应用恒定权重,并且不对actor网络进行梯度策略更新,从而消除了critic网络的贡献。(ii) WL: 表示调整权重 𝜔 受到会话行为标签的控制。(iii) NLC: 不对损失权重执行线性变换,而是直接将负 Q 值分配给损失权重。可以观察到:(i) CW 在两个预测任务的 AUC 和 logloss 指标上表现最差。(ii) WL 和 NLC 在本研究中的表现几乎相同,优于 CW 变体,AUC 提高了 0.002-0.003。(iii) 使用本文提出的总损失设置的 RMTL-PLE 在两个任务上均取得了最佳表现,说明了该线性组合权重设计的有效性。

ablation

4 总结

总结来说,本篇论文提出了RMTL框架,可以使用自适应调整权重进行会话级别的多任务预测。作者在两个真实的数据集上进行了多个实验,结果表明RMTL与大多数现有的基于多任务学习的推荐模型兼容,并且可以提高多任务预测性能,具有良好的可迁移性。更多关于RMTL模型的细节,请参考原始论文。

点击左下角 “阅读原文”, 获取原始论文。

应用机器学习
介绍机器学习最近技术进展和资讯
 最新文章