Decision Transformer 在优化用户留存中的应用

文摘科技 2023-04-11 09:30 中国香港

记得给 “应用机器学习” 添加星标，收取最新干货

作者：香港城市大学赵克森

今天跟大家分享一篇来自于香港城市大学赵翔宇老师团队和武汉大学、百度合作的论文，该文章针对优化用户留存问题，探索了Decision Transformer在推荐系统中的应用。具体的，本文改进了Decision Transformer模型中对奖励建模不充分，训练推断不一致和离线性能评估不可靠的问题，利用其序列化建模，有监督训练的优势，解决了基于强化学习的推荐系统中存在的致命三因素（Deadly Traid）和策略评估困难，为强化学习在推荐系统中的应用提供了一个新视角。

论文: https://arxiv.org/pdf/2303.06347.pdf

摘要

使用强化学习提高用户留存率因其对提高用户参与度的显著重要性而受到越来越多的关注。但是，由于需要进行试错搜索，直接在线训练会不可避免的损害用户体验。此外，离线策略很容易遭受价值估计中的稳定性问题和策略评估中的无界方差问题。为此，我们提出使用Decision Transformer（DT）来优化用户留存，该方法将强化学习作为有监督问题进行处理，从而避免了离线挑战。但是，在推荐场景中部署DT是一个非常棘手的问题，因为存在以下挑战：（1）对奖励建模不充分；（2）策略学习和推荐生成之间的数据差异；（3）不可靠的离线性能评估。因此，在这项工作中，我们为解决上述问题提供了一系列改进。首先，我们通过元嵌入的加权聚合来构建高效的奖励提示，以获得含有更大信息量的奖励嵌入。然后，我们采用加权对比学习方法来解决训练和推理之间的差异。此外，我们设计了两个强大的离线指标来衡量用户留存。最后，在基准数据集上的显著表现证明了该方法的有效性。

1 引言

用户反馈是推荐系统中非常重要的信息，但是现在常用的即时反馈，像用户点击很容易受到干扰。例如一些标题吸引眼球，但是质量很差的物品，会损害用户对系统的信任。所以长效反馈，像用户留存，是更可靠的反馈指标。

强化学习比较适合优化长效指标，但是已有的方法存在一些问题。第一，Deadly Traid。当 Function Approximation，Bootstrapping 和 Off-policy Training 同时存在的时候，强化学习模型会不稳定。第二，策略评估困难。由于推荐系统的状态空间特别大，已有的策略评估方法往往具有无界的方差，干扰模型的训练。

本工作提出将DT应用于顺序推荐系统。将用户的交互轨迹建模成一个序列，转化成有监督的优化问题，来训练模型学习（reward，state）到action的映射关系。将reward作为prompt，提示agent在当前state生成相应的action。这样既不需要Bootstrapping，避免了Deadly Traid的问题，也不需要在训练时进行策略评估。

但是，应用DT也存在一些挑战。第一，reward作为prompt，对模型的推荐质量起关键作用，但是DT只用了一个MLP来简单嵌入。本文提出了自动离散化的reward prompt来建模reward。第二，在推断时，模型会输入reward的最大值，让模型生成最优策略。但是训练时，数据中既有reward较大的轨迹，也有较小的轨迹，导致模型在训练和预测时存在分布差异，无法充分利用reward较小的轨迹。本文使用对比学习的方法来解决数据利用不充分的问题。第三，尽管DT不需要在训练时进行策略评估，但仍需要对训练好的策略表现进行评估，为此，本文提出了两个可信赖的评估指标。本文的主要贡献可以总结如下：

提出了自动离散化reward prompt和对比有监督策略学习，有效地解决了奖励建模不足和训练与推断之间的差异；
设计了基于模型的和基于相似性的用户留存分数。与离线评估方法相比，它们可以公平地评估模型性能；
在两个基准数据集上的实验证明了提出模型的有效性。

2 模型框架

如图1所示，模型主要分为嵌入层、决策层、动作解码器和有监督的策略学习四个部分。

2.1 嵌入层

嵌入层将用户轨迹嵌入为高维向量，用户轨迹可以表示为，其中是累计reward，是第t个时间步的state和action。是用户留存，定义为下个时间间隔有用户登陆的间隔数。

Reward：作为模型的目标，reward的数值区分了不同策略的性能。因此，DT生成的提示应该保持reward之间的偏序关系，即如果两个reward数值接近，则它们生成的提示向量之间的欧几里德距离更小。本文提出采用自动离散化方法生成更高效的提示。具体而言，首先将reward值平均分为B个桶，并为每个桶值训练元嵌入, 。然后，将reward转换为可学习元嵌入的加权分数
，加权聚合元嵌入。由于reward的值用作神经网络的输入，以确保reward之间的偏序关系，只要神经网络是光滑的，值接近的reward将共享相似的嵌入。
State和Action：由于每个时间步，用户会交互多个物品，所以state和action是不定长的序列。本文使用GRU做编码器，分别将state和action编码为富含文本信息的高维嵌入。

2.2 决策层

对于用户留存推荐，需要建模动态的上下文信息来生成推荐决策，这与生成任务类似。所以，本文选用了在生成任务中表现更好的单向Transformer层。用于推荐决策的上下文信息可以被生成为。其中MultiHeadAttention代表多头自注意力机制，是带残差连接的前馈神经层。

2.3 动作解码器

动作解码器使用GRU将用于推荐决策的高维上下文语义信息解码为一个推荐序列。解码过程可以被表示为,

。其中，bos是一个开始标志，提示模型开始预测。在推断时，由于不知道序列长度，所以在序列末尾加一个eos标志，当模型预测出结束标志时，停止预测。

2.4 有监督的策略学习

为了充分利用reward较小的样本，本文通过对比学习的方法，避免模型生成和这部分样本相似的推荐结果。具体的，我们对每个样本，保持state和action不变，使用不同的reward做负样本。带权重的对比学习损失函数可以表示为。其中，是动作解码器预测的动作矩阵，是对于负样本的预测，是负样本的集合，是点积相似度度量函数。是根据负样本reward值设置的权重超参数，希望推荐结果和reward越小的负样本越不相似。

3 实验

3.1 实验设置

数据集：ML-1M，IQiYi用户留存数据。

评估：尽管本文提出的模型是针对于优化长期反馈（用户留存），但是对于即时反馈（预测准确率）任务，也有不错的表现。

预测准确率：使用了四个常用的评估指标，BLUE，ROUGE，HR，NDCG。
用户留存：使用了两个设计的指标MB-URS和SB-URS，以及两个常用的指标IUR和URC。

Model-based user return score（MB-URS）：本文训练了一个有监督的打分模型，根据（state，action）对预测reward，模型结构与Decision Transformer类似。
Similarity-based user return score（SB-URS）：将样本按照reward值分为类，计算了推荐结果与样本的相似度加权和，与reward小的样本更不相似，reward大的样本更相似，得分越高。可以表示为，其中，和分别是第类的相似度，reward值，样本数。
Improved user retention (IUR)：计算了推荐结果相对于离线数据中用户平均留存的提升百分比。
No return count (NRC)：在推荐后用户不再返回的比例。

3.2 总实验

预测准确率：如表2所示，DT4Rec在所有数据集上都有最好的表现，说明了DT4Rec也可以有效的优化用户的即时反馈。

用户留存：如表3所示，记录了所有模型的最好表现，可以得到下列结论：

DT4Rec在所有数据集上拥有最好的表现，证明了其优化用户长期反馈的有效性。
传统的基于强化学习的模型，例如TopK和LIRD，仍然存在Deadly Traid和策略评估困难这些问题，所以他们的表现不如DT4Rec。
DT4Rec-R是DT4Rec去掉reward的版本，效果明显弱于DT4Rec，说明了reward对于指导模型推荐起到重要作用。

3.3 验证自动离散化的奖励提示的有效性

为了说明对于奖励建模改进的有效性，本文在IQiYi数据集上进行了消融实验。使用一层前馈神经层嵌入reward，作为简单的prompt，将这个版本记作‘‘w/o auto-dis’’，如表4所示。实验结果说明了自动离散化的reward prompt的有效性，去掉之后模型的各项指标都有明显下降。

3.4 验证对比监督策略学习的有效性

本文同样在IQiYi数据集上进行了消融实验。如表4所示，‘‘w/o contrastive’’代表不使用对比学习loss，‘‘w/o weight’’代表使用不带权重的对比学习loss，两个版本的模型表现都大幅下降，说明了加权对比学习loss的有效性。

此外，本文还去掉原始的IQiYi数据集中reward较小的轨迹，构造了一个新的数据集Data-B，并在两个数据集上进行了更深入的实验分析。如图3所示，DT4Rec在Data-B数据集上的表现大幅下降，说明在模型训练时，reward较小的这部分样本也被充分利用起来。

4 结论

本文提出了一种基于强化学习的序列推荐系统DT4Rec，通过将强化学习视为有监督的优化问题，避免了不稳定性问题和无界方差问题。此外，本文还为DT4Rec的成功应用做出了一系列贡献。具体而言，自动离散化奖励提示的设计高效的建模了reward的数值信息，并允许使用长期用户留存来指导模型的训练。所提出的对比监督策略学习减少了Naive Decision Transformer推理和训练之间的不一致性。为了评估我们的模型，提出了两个稳定的度量标准，即MB-URS和SB-URS。在基准数据集上进行的大量实验证明了所提出方法的有效性。

点击左下角 “阅读原文”，获取原始论文。

http://mp.weixin.qq.com/s?__biz=MzI1MjE5MzgwOA==&mid=2247483849&idx=1&sn=e83cf1424d05982b07c1629a69ab7713

应用机器学习

介绍机器学习最近技术进展和资讯

最新文章

香港城市大学 AI 机器学习数据挖掘大语言模型全奖PhD/联培PhD

CIKM 2024 | 高效鲁棒的正则化联邦推荐

ICDM 2024 | GPRec: 两级用户增强建模

NeurIPS 2024 | LLM-ESR: 大语言模型增强的长尾序列推荐系统

CIKM 2024 | 基于大语言模型的多场景推荐增强范式

CIKM2024 | 编辑医疗大模型的事实性知识和解释能力

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

KDD 2024 | 基于生成流网络的用户留存建模

KDD 2024 | ControlTraj: 利用路网拓扑指导轨迹生成

TKDE 2024 | 多层次图知识对比学习

CIKM 2024 | HierRec:多场景推荐——场景感知分层建模

CSUR 2024 | 多模态推荐系统综述

祝贺！赵翔宇老师获批第一期CCF-阿里妈妈科技袋基金大模型方向支持！

AML666！AML实验室在KDD CUP 2024 大语言模型多任务挑战赛中获得总榜亚军，全部5个赛道进入前三名的优异成绩

KDD 2024 | ERASE: 深度推荐系统中的特征筛选方法基准

NAACL 2024 | MILL: 一种利用大语言模型进行相互验证的零样本查询扩展方法

KAIS 2023 | AutoAssign+: 流媒体推荐中的自动共享嵌入分配设计

SIGIR 2024 | 当MOE遇上LLMs:针对医疗多任务的参数高效微调方法

CIKM 2023 | 用于医疗文本分类的多任务学习框架KEMTL

ICDE 2024 | 序列推荐的自增强序列去噪框架SSDRec

WSDM 2024 | 多场景推荐冷启动问题的扩散模型增强范式

重磅！OpenAI 官宣上线 GPT Store！超300万个 GPTs 大爆发

综述：LLM驱动的生成式信息抽取

ChatGPT官方登陆应用市场！OpenA再放大招，可精准识别中文

IJCAI22 | 基于纯MLP方法的序列推荐模型

Bard全面升级，新大模型能超GPT-4，谷歌反击ChatGPT

WWW 2023 | 基于MLP序列的自适应结构搜索推荐模型AutoMLP

WWW 2023|基于强化学习的多任务推荐系统

AAAI 2023 | 自动时空多任务学习AutoSTL

WWW 2023 | IMF: 用于链接预测的交互式多模式融合模型

基于反事实因果的图对比学习负样本生成

Decision Transformer 在优化用户留存中的应用

多行为推荐的去噪与提示调节

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉