点击下方“计算机书童”卡片,每天获取顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
题目:NineRec: A Benchmark Dataset Suite for Evaluating Transferable RecommendationNineRec:一个用于评估可迁移推荐系统的基准数据集套件
作者:Jiaqi Zhang; Yu Cheng; Yongxin Ni; Yunzhu Pan; Zheng Yuan; Junchen Fu; Youhua Li; Jie Wang; Fajie Yuan
源码链接:https://github.com/anonymous-ninerec/NineRec
摘要
大型基础模型通过上游预训练和下游微调,在人工智能社区取得了巨大成功,这得益于模型性能的提升和重复工程的显著减少。相比之下,推荐系统领域的可转移通用模型(称为TransRec)进展有限。TransRec的发展遇到了多重挑战,其中缺乏大规模、高质量的迁移学习推荐数据集和基准套件是最大的障碍之一。为此,我们介绍了NineRec,这是一个包含大规模源域推荐数据集和九个不同目标域推荐数据集的TransRec数据集套件。NineRec中的每个项目都附有描述性文本和高分辨率封面图像。通过NineRec,我们能够实现TransRec模型的实现,通过学习原始多模态特征而不是仅仅依赖于预先提取的现成特征。最后,我们使用几种经典的网络架构提供了稳健的TransRec基准结果,为该领域提供了宝贵的见解。为了促进进一步的研究,我们将在我们的GitHub页面上发布我们的代码、数据集、基准和排行榜。
关键字
数据集,可转移推荐,基于模态的推荐,预训练,微调,基准
1. 引言
推荐系统(RS)模型在预测用户对未见项目偏好方面发挥着至关重要的作用,这些模型基于用户之前的交互。这些极其成功的模型已在广告系统、电子商务网站、搜索引擎和流媒体服务等多种应用中找到了广泛的应用。在过去的几十年中,对基于内容的[1]和协同过滤[2]、[3]、[4]推荐模型进行了大量研究。在这些方法中,基于ID的协同过滤模型(称为IDRec),利用唯一ID代表用户和项目,在RS领域占据了超过10年的主导地位。
与此同时,IDRec范式由于其固有特性遇到了几个关键瓶颈。首先,IDRec难以处理冷启动场景,因为新的userID和itemID在部署到实时环境之前无法有效训练。其次,IDRec的设计哲学与深度学习社区中现代“基础”模型[5]强调的预训练参数适应多个下游任务的基本原则相背离。这是因为IDRec通常需要共享数据或重叠的ID(即userID和itemID)来实现跨域推荐[6]、[7]、[8]、[9]、[10]、[11]。然而,由于不同系统之间的数据隐私和重叠率问题,实现这种跨域推荐往往不切实际。例如,TikTok这样的平台可能不会与YouTube这样的平台共享它们的userID或videoID。
为了克服这些限制,一种直观的方法是放弃使用userID和itemID特征,特别是itemID。1 相反,我们可以利用项目的多模态内容来代表它们[10]、[12]、[13]、[14]、[15]、[16]。我们将这种方法称为MoRec[12]。例如,如果项目是新闻文章或文本,我们可以使用BERT[17]或RoBERTa[18]来表示它。如果项目是图像,我们可以使用ResNet[19]或视觉变换器(ViT)[20]来表示它。通过使用模态特征来表示项目,推荐模型可以自然地具备跨域和系统迁移学习能力。这种范式,称为TransRec,与自然语言处理(NLP)和计算机视觉(CV)中的通用模型有相似之处。
然而,TransRec模型受到的关注和成功程度不如NLP和CV。到目前为止,RS社区还没有一个可以下载的TransRec模型,例如在HuggingFace等平台上,其预训练参数可以直接应用于其他推荐数据集,类似于NLP中BERT的使用。TransRec模型在实际应用中成功部署有几个挑战。一个主要挑战是IDRec范式的确立和主导地位,它在过去十年中代表了最先进的基线,特别是在非冷启动场景中。仅依赖于多模态特征的TransRec或MoRec往往难以超越这些IDRec模型,2特别是在过去几年,当高度表达的模态编码器,如大型BERT或顶级ViT尚未可用时。随着最近几个月的最新文献[12]、[16]证实,即使在非冷启动和温暖项目场景中,也可以使用先进的多模态编码器替换itemID特征,这种情况取得了一些进展。
TransRec范式面临的另一个挑战是缺乏大规模的多模式预训练推荐数据集和多样化的下游数据集。虽然微软提供了高质量的新闻推荐数据集MIND [22],但它缺乏用于评估的各种下游数据集,并且不包括原始图像特征。一些电子商务数据集,如Amazon3,Yelp 4和GEST [23],可以提供原始图像特征,但这些数据集中的项目通常围绕简单对象(如图1所示)或具有有限的视觉多样性,5使它们不太适合作为一般或语义更丰富的图像的预训练数据集。更重要的是,这些数据集直观上不太适合研究纯模态(视觉或文本)推荐,因为电子商务数据集中的用户意图受到其他因素的严重影响,例如价格,销售,品牌,位置,最重要的是,用户的实际购买需求。
在本文中,我们的主要目标是为社区解决数据集挑战,并随后提供可靠的基准。具体来说,我们介绍了NineRec,它是一个TransRec数据集集合,由一个非常大的源域数据集(有200万用户、14.4万个项目和2400万个用户-项目交互)和9个不同的目标域数据集(包括5个来自同一平台的不同场景,以及4个来自不同平台)组成。每个项目都由原始描述文字和高分辨率封面图像表示。据我们所知,NineRec是第一个用于流媒体内容推荐的大规模和高度多样化的数据集,涵盖了各种类型的原始内容,包括短视频、新闻和图像。我们的NineRec数据集的一个显著特点是,用户在流媒体中的观看意图可以主要从项目的视觉外观推断出来,而非视觉因素(如电子商务推荐数据集中的价格或位置推荐数据集中的距离)的影响最小。从这一角度来看,NineRec是一个比较理想的多模态内容聚焦推荐研究数据集.然后,我们报告了几个代表性的TransRec基线,用于源数据集和9个目标数据集的视觉和文本推荐任务,方法是用高级模态编码器替换ID嵌入。我们对NineRec进行了严格的实证研究,发现了几个有趣的发现。为了方便未来的研究,我们发布了我们的代码、数据集、基准测试和排行榜。除此之外,我们还将NineRec作为NLP和CV研究人员的有用数据集,他们可以将推荐作为下游任务来评估新的图像/文本编码器的通用性。鉴于此,NineRec帮助统一了RS、NLP和CV的字段。
2. NineRec数据集套件
2.1 数据集摘要
为了促进TransRec研究,我们策划了一组基准数据集,包括来自Bili的大规模源域数据集和九个不同的下游目标域数据集,分别为Bili Food、Bili Dance、Bili Movie、Bili Cartoon、Bili Music、QB、TN、KU和DY。6 Bili、KU和DY是中国三个最著名的短视频RS平台,其中每个项目是一个短视频7,而TN和QB是两个大型流媒体推荐平台,其中项目可以是新闻文章、短视频或广告。上述所有数据集中的每个项目都包含文本描述和图像封面。每个积极的用户-项目交互都是点赞或评论,这是用户偏好的强烈信号。请注意,我们没有保留评论内容,因为我们认为项目的文本描述(即标题)比评论或评论更具代表性。
我们提供了两个源数据集:Bili 500K和Bili 2M,其中500K和2M分别代表50万和200万用户。Bili 500K是Bili 2M的子集。它们的收集策略相似,将在以下子节中给出。源数据集的用户-项目交互是从主渠道和20个垂直渠道收集的,导致项目类别高度多样化。相比之下,目标域中的Bili *数据集是从Bili网站的五个垂直渠道(不包括源数据集中的那些)收集的,其中每个频道页面的项目主要来自同一类别。例如,Bili Food上的物品主要是关于食物和烹饪的,而Bili Music上的物品是音乐视频。Bili 2M和Bili *没有重叠的项目或用户-项目交互。可能会有一些用户访问了主频道和这些垂直频道。但我们不认为重叠用户是我们的重点。
2.2 数据集构建与分析
数据收集过程大约持续了10个月,从2021年9月到2022年7月。以Bili源为例,我们从20多个频道(包括具有各种类别的主频道)收集短视频。通过频繁请求网页,我们可以每个频道收集约1000-2000个视频。然后我们前往所有这些视频的页面,这些页面通常包含许多链接到其他视频的链接。在每个页面上,我们随机选择3-5个视频。我们多次这样做。然后,我们合并了所有视频并去除了重复项。至于用户反馈,我们浏览了所有收集的视频页面,并为每个视频收集了公共评论(包括弹幕评论),并确保每个视频最多有3500条用户评论。我们逐页爬取评论数据,我们收集的评论越多,它将需要的时间就越长。我们只记录了最新的一对用户-视频交互,尽管用户可能多次评论了一个视频。
对于源数据集,我们首先在几个月的数据收集后得到了Bili 500K,然后聚合了所有数据,并去除了少于10个行为的用户。然后我们继续在几个月内爬取更多数据,并聚合了所有现有数据,但只去除了少于5个行为的用户,从而产生了Bili 2M。由于Bili 2M的收集时间缓慢,我们在Bili 500K上进行了主要实验。类似地,我们从Bili的5个垂直频道和QB、TN、KU和DY等其他平台收集了数据。对于这些下游数据集,我们保持了相同的数据收集程序。在本文中,我们只保留了封面图像和标题描述来代表一篇文章或短视频,而不是新闻内容或原始视频。在基本处理之后,我们聘请了五名学生手动检查图像和文本的质量,并去除了大约1%的劣质项目(例如,只有黑色背景的图像、图像-文本不匹配、过于耸人听闻的文本描述等)。我们保留了这些数据集的主要属性,没有更多的预处理,因为它们可能对其他研究很重要。最终数据集的统计数据在表1中。源数据集Bili 2M包含144,146个原始图像,平均分辨率为1920x1080。所有下游Bili *数据集具有相同的分辨率,四个跨平台数据集的分辨率至少为300x400,满足了流行视觉编码器的基本要求。所有这些数据集的平均词长在16-34的范围内。
NineRec数据集的其他统计数据在图2中给出。首先,我们可以看到所有数据集的项目分布通常遵循长尾分布,这在许多先前的文献[24]中广泛观察到。其次,我们可以看到用户交互的数量主要在[5100]范围内,其中[5,20)是大多数。因此,我们通过将最大用户序列长度设置为23,并在用户交互不足时用零填充,来运行TransRec实验。第三,Bili 2M的交互主要发生在2017年和2022年之间。
2.3 版权和隐私
在本文中,我们严格遵循隐私保护措施,只收集公共用户行为。我们没有收集任何私人用户行为,如点击或观看时间。此外,我们收集的项目内容,包括缩略图和描述性文本,本身可以在平台的网页上自由访问,没有任何限制。用户帐户ID和项目ID也公开显示在这些平台上。尽管如此,我们已经采取了匿名处理的预防措施,以减少潜在的攻击。这些匿名项目ID可以用来使用我们的映射算法构建项目URL。我们已经在我们的下载软件中实现了映射算法和URL构建,确保研究人员只能通过我们的下载器访问数据。
关于版权问题,我们不直接提供项目封面图像。相反,我们提供了下载工具,允许数据用户通过解析提供的URL(URL嵌入在下载器中,不公开暴露给公众)直接从相应平台下载内容。这种方法确保了版权问题不会涉及,并且是学术文献中广泛采用的做法[25]、[26]。此外,对于可能已过期或不可用的视频,我们的下载器会自动在备份目录中找到它们,以确保永久访问和可下载性。
2.4 与现有数据集的比较
用于TransRec研究的数据集可以分为三种类型:具有重叠类别ID的数据集[7]、[24]、[27],具有多模态编码器预先提取特征的数据集[28]、[29]、[30]、[31]、[32],以及具有原始模态特征的数据集。虽然有许多公共数据集可供前两种类型使用,但后者却非常少。MIND(用于文本RS)、Amazon(用于产品RS)、Pinterest8[33](用于图像RS)、WikiMedia[34](用于图像RS)、GEST和Yelp[23](用于食品推荐)具有原始模态特征。其中,MIND、Amazon、Yelp和GEST(即Google Restaurants)具有大规模。然而,MIND没有下游数据集。尽管Amazon的项目具有类别信息,但它们更像是跨类别推荐,而不是严格的跨域推荐,因为域的概念并不明确[35]。9相比之下,NineRec实现了跨域和跨平台推荐,因为NineRec的目标数据是从不同的推荐频道或不同系统收集的。与相关数据集的详细比较显示在附录表10中。
Amazon的另一个缺点是,它的图像主要是关于单一产品(例如鞋子、书籍、食品、电子产品),因此,在它们上训练的模型不能反映在其他更复杂和实际的图像场景中的真正性能(见图1)。同样,Yelp和GEST也因为大多数项目图像是关于食物和餐厅的,而遭受图像多样性问题的困扰。
新奇和局限性。首先,虽然有几个具有原始模态特征的大规模公共数据集可用,但它们的视觉或语义多样性有限,使得它们不适合作为预训练数据集。对于一个理想的预训练模型来说,从具有良好多样性的数据中学习是至关重要的。相比之下,NineRec的源数据集包含来自20多个不同视频频道的项目,提供了更广泛的视觉多样性。此外,NineRec还提供了9个目标任务,支持跨域和跨平台的推荐任务。其次,在现有数据集中观察到的用户行为,例如Amazon和GEST,主要不是由项目外观或模态特征驱动的。相反,它受到无数其他重要因素的影响,包括价格、销售、品牌、位置和用户的实际购买需求。也就是说,用户偏好不能主要从视觉特征学习。例如,当用户在亚马逊上购买婴儿奶粉时,更有可能是由于产品的质量和品牌,而不是其形象特征。相比之下,我们从内容共享平台收集的NineRec数据集中的外观特征是吸引用户观看或点击行为的合理的更重要的信号。具体而言,在短视频和信息流的背景下,用户往往会被动地接受平台的推荐,而不是像电商场景中看到的那样有特定的意图。此外,缩略图和标题的吸引力直观地影响用户对是点击还是观看视频的决定。因此,从这一角度出发,NineRec数据集是进行纯模态特征推荐研究的一个较为理想的数据集。此外,我们认为推荐系统社区不仅需要来自电子商务场景的数据集,还需要来自短视频和信息流上下文的数据集。这些都是非常不同的应用领域,在开发推荐算法时考虑它们是至关重要的。
值得注意的是,NineRec也有一些局限性:(1)某些用户交互可能会受到点击诱饵视频缩略图和标题的影响;(2)NineRec数据集来源于真实世界的推荐平台,导致数据分布可能包含曝光和流行偏见。这些因素可能会影响推荐系统的公平性。然而,我们保留了NineRec的原始数据分布,以最大限度地促进多样性研究。
3. TransRec相关工作
基础模型[5]在广泛数据上进行训练,并能够适应多种下游任务,已经将人工智能社区的研究范式从特定任务模型转变为通用模型。近年来,开发了一系列基础模型。其中,BERT、RoBERTa、GPT[36]、[37]、[38]和ChatGPT10因编码和生成文本数据而闻名,ResNet、ViT、Swin Transformer[39]和各种扩散模型[40]因编码和生成视觉数据而知名,而CLIP[41]和DALL.E[14]则因多模态研究而知名。
与NLP和CV不同,到目前为止,RS社区还没有在基础模型方面取得高度认可的开创性工作。PeterRec[6]、DUPN[42]、STAR[43]和Conure[7]等最近的工作在学习通用(用户或项目)表示方面进行了一些有意义的探索。然而,它们都属于IDRec类别,当下游数据集缺乏重叠的userID或itemID时,它们的迁移学习能力有限[44]。最近,研究人员开始直接从原始模态特征[12]、[45]学习RS模型。ZESREC[46]是第一篇实现文本RS的零样本迁移学习能力的论文,而没有使用用户或项目重叠信息。类似的工作包括ShopperBERT[47]、PTUM[48]、UniSRec[13]、IDA-SR[49]、VQ-Rec[50]、LLM4Rec[16]。所有这些工作只关注文本模态,主要基于从冻结的文本编码器预先提取的文本特征。三篇预印本,即TransRec[15]、AdapterRec[10]、LLM-REC[51]和并发工作Recformer[45]和LMRec[52],对模态编码器进行了联合或端到端(E2E)训练,但它们大多数只研究了一种类型的UE和ME,而对于其他更先进的UE和ME,以及训练方式则不得而知。P5[53]、M6Rec[21]和Conure[7]提出了一个统一模型,用于多个任务,如评论摘要、评分预测、用户档案预测和项目推荐。
在本文中,我们在E2E学习的TransRec上报告了基准结果,这在计算上非常昂贵,但比预先提取的特征表现得好得多。
4. 基线概述
基于模态的推荐(MoRec)。设U、I分别为用户和项目集。RS的目标是利用用户u ∈ U过去的行為Iu = {i1, ..., in}来预测用户u与项目i的潜在交互。在经典的IDRec设置中,用户和项目通常由其唯一ID表示。因此,userID和itemID可以嵌入到一系列密集向量中,表示为βu ∈ Rd和βi ∈ Rd,其中d是嵌入大小,每个向量都是用户或项目的表示。MoRec则应用模态编码器(ME),表示为f(xi),对项目i的模态特征xi进行编码。MoRec基本上可以继承IDRec的其他模块,如用户编码器或推荐主干。理论上,可以通过简单地将IDRec中的βi替换为f(xi)来构建各种MoRec模型。在本文中,我们将MoRec的范围限制为只从纯模态特征中学习推荐模型,而不是将它们视为ID特征的辅助特征。这与大多数先前的工作[28]、[54]不同,它们使用ID作为主要特征,模态作为辅助特征。然而,这种范式不适合实现可转移推荐的目标,因为共享或转移ID特征在实际中面临挑战[12]、[13]、[15]。
5. TransRec基准
5.1 评估
5.2 实验设置
5.3 基准用户编码器
表2、6、7和附录表6表明,TransRec在源数据集上进行预训练(即HasPT)的版本大多比其NoPT版本表现得更好。这些结果突出了预训练的有效性,并表明NineRec数据集非常适合迁移学习研究。 表2和7表明,在文本模态上预训练的TransRec通常明显优于其IDRec对应物。同时,如果预训练是在图像模态上进行的,它有时表现得比IDRec差。在源数据集和两个非常温暖的数据集上也可以观察到类似的结果,见附录表7和8。以前的工作主要关注TransRec在冷启动场景中胜过IDRec。然而,在非冷启动场景中击败IDRec标志着一个重要的进步,并可能预示着推荐系统未来范式的转变。这尤其值得注意,考虑到IDRec在过去10年中一直是最先进的方法。 表6表明,训练在多模态(文本和图像)特征上的TransRec模型并不总是胜过训练在单一模态上的模型(即表2)。这是一个合理的观察(也在文献[65]中观察到),因为在端到端学习范式中有效地融合文本和图像模态在推荐模型中是一个非平凡的挑战,这在很大程度上仍未被探索。 表2和附录表7表明,具有更高IDRec准确性的推荐网络,如SASRec与BERT4Rec相比,并不一定导致在TransRec或MoRec上具有更高的准确性,即使使用相同的ME。
5.4 基准项目编码器
5.5 端到端(E2E)与两阶段(TS)基准
6. 零样本推荐
7. 结论、局限性、更广泛的影响
声明
#论 文 推 广#
让你的论文工作被更多人看到
你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 计算机书童 小编