记得给 “应用机器学习” 添加星标,收取最新干货
作者:香港城市大学 赵克森
今天跟大家分享一篇来自于香港城市大学赵翔宇老师团队和武汉大学、百度合作的论文,该文章针对优化用户留存问题,探索了Decision Transformer在推荐系统中的应用。具体的,本文改进了Decision Transformer模型中对奖励建模不充分,训练推断不一致和离线性能评估不可靠的问题,利用其序列化建模,有监督训练的优势,解决了基于强化学习的推荐系统中存在的致命三因素(Deadly Traid)和策略评估困难,为强化学习在推荐系统中的应用提供了一个新视角。
论文: https://arxiv.org/pdf/2303.06347.pdf
摘要
使用强化学习提高用户留存率因其对提高用户参与度的显著重要性而受到越来越多的关注。但是,由于需要进行试错搜索,直接在线训练会不可避免的损害用户体验。此外,离线策略很容易遭受价值估计中的稳定性问题和策略评估中的无界方差问题。为此,我们提出使用Decision Transformer(DT)来优化用户留存,该方法将强化学习作为有监督问题进行处理,从而避免了离线挑战。但是,在推荐场景中部署DT是一个非常棘手的问题,因为存在以下挑战:(1)对奖励建模不充分;(2)策略学习和推荐生成之间的数据差异;(3)不可靠的离线性能评估。因此,在这项工作中,我们为解决上述问题提供了一系列改进。首先,我们通过元嵌入的加权聚合来构建高效的奖励提示,以获得含有更大信息量的奖励嵌入。然后,我们采用加权对比学习方法来解决训练和推理之间的差异。此外,我们设计了两个强大的离线指标来衡量用户留存。最后,在基准数据集上的显著表现证明了该方法的有效性。
1 引言
用户反馈是推荐系统中非常重要的信息,但是现在常用的即时反馈,像用户点击很容易受到干扰。例如一些标题吸引眼球,但是质量很差的物品,会损害用户对系统的信任。所以长效反馈,像用户留存,是更可靠的反馈指标。
强化学习比较适合优化长效指标,但是已有的方法存在一些问题。第一,Deadly Traid。当 Function Approximation,Bootstrapping 和 Off-policy Training 同时存在的时候,强化学习模型会不稳定。第二,策略评估困难。由于推荐系统的状态空间特别大,已有的策略评估方法往往具有无界的方差,干扰模型的训练。
本工作提出将DT应用于顺序推荐系统。将用户的交互轨迹建模成一个序列,转化成有监督的优化问题,来训练模型学习(reward,state)到action的映射关系。将reward作为prompt,提示agent在当前state生成相应的action。这样既不需要Bootstrapping,避免了Deadly Traid的问题,也不需要在训练时进行策略评估。
但是,应用DT也存在一些挑战。第一,reward作为prompt,对模型的推荐质量起关键作用,但是DT只用了一个MLP来简单嵌入。本文提出了自动离散化的reward prompt来建模reward。第二,在推断时,模型会输入reward的最大值,让模型生成最优策略。但是训练时,数据中既有reward较大的轨迹,也有较小的轨迹,导致模型在训练和预测时存在分布差异,无法充分利用reward较小的轨迹。本文使用对比学习的方法来解决数据利用不充分的问题。第三,尽管DT不需要在训练时进行策略评估,但仍需要对训练好的策略表现进行评估,为此,本文提出了两个可信赖的评估指标。本文的主要贡献可以总结如下:
提出了自动离散化reward prompt和对比有监督策略学习,有效地解决了奖励建模不足和训练与推断之间的差异; 设计了基于模型的和基于相似性的用户留存分数。与离线评估方法相比,它们可以公平地评估模型性能; 在两个基准数据集上的实验证明了提出模型的有效性。
2 模型框架
如图1所示,模型主要分为嵌入层、决策层、动作解码器和有监督的策略学习四个部分。
2.1 嵌入层
嵌入层将用户轨迹嵌入为高维向量,用户轨迹可以表示为 ,其中 是累计reward, 是第t个时间步的state和action。 是用户留存,定义为下个时间间隔有用户登陆的间隔数。
Reward:作为模型的目标,reward的数值区分了不同策略的性能。因此,DT生成的提示应该保持reward之间的偏序关系,即如果两个reward数值接近,则它们生成的提示向量之间的欧几里德距离更小。本文提出采用自动离散化方法生成更高效的提示。具体而言,首先将reward值平均分为B个桶,并为每个桶值训练元嵌入, 。然后,将reward转换为可学习元嵌入的加权分数,加权聚合元嵌入。由于reward的值用作神经网络的输入,以确保reward之间的偏序关系,只要神经网络是光滑的,值接近的reward将共享相似的嵌入。 State和Action:由于每个时间步,用户会交互多个物品,所以state和action是不定长的序列。本文使用GRU做编码器,分别将state和action编码为富含文本信息的高维嵌入。
2.2 决策层
对于用户留存推荐,需要建模动态的上下文信息来生成推荐决策,这与生成任务类似。所以,本文选用了在生成任务中表现更好的单向Transformer层。用于推荐决策的上下文信息可以被生成为。其中MultiHeadAttention代表多头自注意力机制, 是带残差连接的前馈神经层。
2.3 动作解码器
动作解码器使用GRU将用于推荐决策的高维上下文语义信息解码为一个推荐序列。解码过程可以被表示为,
。其中,bos是一个开始标志,提示模型开始预测。在推断时,由于不知道序列长度,所以在序列末尾加一个eos标志,当模型预测出结束标志时,停止预测。2.4 有监督的策略学习
为了充分利用reward较小的样本,本文通过对比学习的方法,避免模型生成和这部分样本相似的推荐结果。具体的,我们对每个样本,保持state和action不变,使用不同的reward做负样本。带权重的对比学习损失函数可以表示为。其中,是动作解码器预测的动作矩阵,是对于负样本的预测,是负样本的集合,是点积相似度度量函数。是根据负样本reward值设置的权重超参数,希望推荐结果和reward越小的负样本越不相似。
3 实验
3.1 实验设置
数据集:ML-1M,IQiYi用户留存数据。
评估:尽管本文提出的模型是针对于优化长期反馈(用户留存),但是对于即时反馈(预测准确率)任务,也有不错的表现。
预测准确率:使用了四个常用的评估指标,BLUE,ROUGE,HR,NDCG。 用户留存:使用了两个设计的指标MB-URS和SB-URS,以及两个常用的指标IUR和URC。 Model-based user return score(MB-URS):本文训练了一个有监督的打分模型,根据(state,action)对预测reward,模型结构与Decision Transformer类似。 Similarity-based user return score(SB-URS):将样本按照reward值分为类,计算了推荐结果与样本的相似度加权和,与reward小的样本更不相似,reward大的样本更相似,得分越高。可以表示为,其中,和分别是第类的相似度,reward值,样本数。 Improved user retention (IUR):计算了推荐结果相对于离线数据中用户平均留存的提升百分比。 No return count (NRC):在推荐后用户不再返回的比例。
3.2 总实验
预测准确率:如表2所示,DT4Rec在所有数据集上都有最好的表现,说明了DT4Rec也可以有效的优化用户的即时反馈。
用户留存:如表3所示,记录了所有模型的最好表现,可以得到下列结论:
DT4Rec在所有数据集上拥有最好的表现,证明了其优化用户长期反馈的有效性。 传统的基于强化学习的模型,例如TopK和LIRD,仍然存在Deadly Traid和策略评估困难这些问题,所以他们的表现不如DT4Rec。 DT4Rec-R是DT4Rec去掉reward的版本,效果明显弱于DT4Rec,说明了reward对于指导模型推荐起到重要作用。
3.3 验证自动离散化的奖励提示的有效性
为了说明对于奖励建模改进的有效性,本文在IQiYi数据集上进行了消融实验。使用一层前馈神经层嵌入reward,作为简单的prompt,将这个版本记作‘‘w/o auto-dis’’,如表4所示。实验结果说明了自动离散化的reward prompt的有效性,去掉之后模型的各项指标都有明显下降。
3.4 验证对比监督策略学习的有效性
本文同样在IQiYi数据集上进行了消融实验。如表4所示,‘‘w/o contrastive’’代表不使用对比学习loss,‘‘w/o weight’’代表使用不带权重的对比学习loss,两个版本的模型表现都大幅下降,说明了加权对比学习loss的有效性。
此外,本文还去掉原始的IQiYi数据集中reward较小的轨迹,构造了一个新的数据集Data-B,并在两个数据集上进行了更深入的实验分析。如图3所示,DT4Rec在Data-B数据集上的表现大幅下降,说明在模型训练时,reward较小的这部分样本也被充分利用起来。
4 结论
本文提出了一种基于强化学习的序列推荐系统DT4Rec,通过将强化学习视为有监督的优化问题,避免了不稳定性问题和无界方差问题。此外,本文还为DT4Rec的成功应用做出了一系列贡献。具体而言,自动离散化奖励提示的设计高效的建模了reward的数值信息,并允许使用长期用户留存来指导模型的训练。所提出的对比监督策略学习减少了Naive Decision Transformer推理和训练之间的不一致性。为了评估我们的模型,提出了两个稳定的度量标准,即MB-URS和SB-URS。在基准数据集上进行的大量实验证明了所提出方法的有效性。
点击左下角 “阅读原文”, 获取原始论文。