TPAMI 2024 | NineRec：一个用于评估可迁移推荐系统的基准数据集套件

文摘 2024-10-30 19:01 辽宁

点击下方“PaperEveryday”，每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目：NineRec: A Benchmark Dataset Suite for Evaluating Transferable Recommendation

NineRec：一个用于评估可迁移推荐系统的基准数据集套件

作者：Jiaqi Zhang; Yu Cheng; Yongxin Ni; Yunzhu Pan; Zheng Yuan; Junchen Fu; Youhua Li; Jie Wang; Fajie Yuan

源码链接：https://github.com/anonymous-ninerec/NineRec

摘要

大型基础模型通过上游预训练和下游微调，在人工智能社区取得了巨大成功，这得益于模型性能的提升和重复工程的显著减少。相比之下，推荐系统领域的可转移通用模型（称为TransRec）进展有限。TransRec的发展遇到了多重挑战，其中缺乏大规模、高质量的迁移学习推荐数据集和基准套件是最大的障碍之一。为此，我们介绍了NineRec，这是一个包含大规模源域推荐数据集和九个不同目标域推荐数据集的TransRec数据集套件。NineRec中的每个项目都附有描述性文本和高分辨率封面图像。通过NineRec，我们能够实现TransRec模型的实现，通过学习原始多模态特征而不是仅仅依赖于预先提取的现成特征。最后，我们使用几种经典的网络架构提供了稳健的TransRec基准结果，为该领域提供了宝贵的见解。为了促进进一步的研究，我们将在我们的GitHub页面上发布我们的代码、数据集、基准和排行榜。

关键字

数据集，可转移推荐，基于模态的推荐，预训练，微调，基准

1. 引言

推荐系统（RS）模型在预测用户对未见项目偏好方面发挥着至关重要的作用，这些模型基于用户之前的交互。这些极其成功的模型已在广告系统、电子商务网站、搜索引擎和流媒体服务等多种应用中找到了广泛的应用。在过去的几十年中，对基于内容的[1]和协同过滤[2]、[3]、[4]推荐模型进行了大量研究。在这些方法中，基于ID的协同过滤模型（称为IDRec），利用唯一ID代表用户和项目，在RS领域占据了超过10年的主导地位。

与此同时，IDRec范式由于其固有特性遇到了几个关键瓶颈。首先，IDRec难以处理冷启动场景，因为新的userID和itemID在部署到实时环境之前无法有效训练。其次，IDRec的设计哲学与深度学习社区中现代“基础”模型[5]强调的预训练参数适应多个下游任务的基本原则相背离。这是因为IDRec通常需要共享数据或重叠的ID（即userID和itemID）来实现跨域推荐[6]、[7]、[8]、[9]、[10]、[11]。然而，由于不同系统之间的数据隐私和重叠率问题，实现这种跨域推荐往往不切实际。例如，TikTok这样的平台可能不会与YouTube这样的平台共享它们的userID或videoID。

为了克服这些限制，一种直观的方法是放弃使用userID和itemID特征，特别是itemID。1 相反，我们可以利用项目的多模态内容来代表它们[10]、[12]、[13]、[14]、[15]、[16]。我们将这种方法称为MoRec[12]。例如，如果项目是新闻文章或文本，我们可以使用BERT[17]或RoBERTa[18]来表示它。如果项目是图像，我们可以使用ResNet[19]或视觉变换器（ViT）[20]来表示它。通过使用模态特征来表示项目，推荐模型可以自然地具备跨域和系统迁移学习能力。这种范式，称为TransRec，与自然语言处理（NLP）和计算机视觉（CV）中的通用模型有相似之处。

然而，TransRec模型受到的关注和成功程度不如NLP和CV。到目前为止，RS社区还没有一个可以下载的TransRec模型，例如在HuggingFace等平台上，其预训练参数可以直接应用于其他推荐数据集，类似于NLP中BERT的使用。TransRec模型在实际应用中成功部署有几个挑战。一个主要挑战是IDRec范式的确立和主导地位，它在过去十年中代表了最先进的基线，特别是在非冷启动场景中。仅依赖于多模态特征的TransRec或MoRec往往难以超越这些IDRec模型，2特别是在过去几年，当高度表达的模态编码器，如大型BERT或顶级ViT尚未可用时。随着最近几个月的最新文献[12]、[16]证实，即使在非冷启动和温暖项目场景中，也可以使用先进的多模态编码器替换itemID特征，这种情况取得了一些进展。

TransRec范式面临的另一个挑战是缺乏大规模的多模式预训练推荐数据集和多样化的下游数据集。虽然微软提供了高质量的新闻推荐数据集MIND [22]，但它缺乏用于评估的各种下游数据集，并且不包括原始图像特征。一些电子商务数据集，如Amazon3，Yelp 4和GEST [23]，可以提供原始图像特征，但这些数据集中的项目通常围绕简单对象（如图1所示）或具有有限的视觉多样性，5使它们不太适合作为一般或语义更丰富的图像的预训练数据集。更重要的是，这些数据集直观上不太适合研究纯模态（视觉或文本）推荐，因为电子商务数据集中的用户意图受到其他因素的严重影响，例如价格，销售，品牌，位置，最重要的是，用户的实际购买需求。

在本文中，我们的主要目标是为社区解决数据集挑战，并随后提供可靠的基准。具体来说，我们介绍了NineRec，它是一个TransRec数据集集合，由一个非常大的源域数据集（有200万用户、14.4万个项目和2400万个用户-项目交互）和9个不同的目标域数据集（包括5个来自同一平台的不同场景，以及4个来自不同平台）组成。每个项目都由原始描述文字和高分辨率封面图像表示。据我们所知，NineRec是第一个用于流媒体内容推荐的大规模和高度多样化的数据集，涵盖了各种类型的原始内容，包括短视频、新闻和图像。我们的NineRec数据集的一个显著特点是，用户在流媒体中的观看意图可以主要从项目的视觉外观推断出来，而非视觉因素（如电子商务推荐数据集中的价格或位置推荐数据集中的距离）的影响最小。从这一角度来看，NineRec是一个比较理想的多模态内容聚焦推荐研究数据集.然后，我们报告了几个代表性的TransRec基线，用于源数据集和9个目标数据集的视觉和文本推荐任务，方法是用高级模态编码器替换ID嵌入。我们对NineRec进行了严格的实证研究，发现了几个有趣的发现。为了方便未来的研究，我们发布了我们的代码、数据集、基准测试和排行榜。除此之外，我们还将NineRec作为NLP和CV研究人员的有用数据集，他们可以将推荐作为下游任务来评估新的图像/文本编码器的通用性。鉴于此，NineRec帮助统一了RS、NLP和CV的字段。

2. NineRec数据集套件

2.1 数据集摘要

为了促进TransRec研究，我们策划了一组基准数据集，包括来自Bili的大规模源域数据集和九个不同的下游目标域数据集，分别为Bili Food、Bili Dance、Bili Movie、Bili Cartoon、Bili Music、QB、TN、KU和DY。6 Bili、KU和DY是中国三个最著名的短视频RS平台，其中每个项目是一个短视频7，而TN和QB是两个大型流媒体推荐平台，其中项目可以是新闻文章、短视频或广告。上述所有数据集中的每个项目都包含文本描述和图像封面。每个积极的用户-项目交互都是点赞或评论，这是用户偏好的强烈信号。请注意，我们没有保留评论内容，因为我们认为项目的文本描述（即标题）比评论或评论更具代表性。

我们提供了两个源数据集：Bili 500K和Bili 2M，其中500K和2M分别代表50万和200万用户。Bili 500K是Bili 2M的子集。它们的收集策略相似，将在以下子节中给出。源数据集的用户-项目交互是从主渠道和20个垂直渠道收集的，导致项目类别高度多样化。相比之下，目标域中的Bili *数据集是从Bili网站的五个垂直渠道（不包括源数据集中的那些）收集的，其中每个频道页面的项目主要来自同一类别。例如，Bili Food上的物品主要是关于食物和烹饪的，而Bili Music上的物品是音乐视频。Bili 2M和Bili *没有重叠的项目或用户-项目交互。可能会有一些用户访问了主频道和这些垂直频道。但我们不认为重叠用户是我们的重点。

2.2 数据集构建与分析

数据收集过程大约持续了10个月，从2021年9月到2022年7月。以Bili源为例，我们从20多个频道（包括具有各种类别的主频道）收集短视频。通过频繁请求网页，我们可以每个频道收集约1000-2000个视频。然后我们前往所有这些视频的页面，这些页面通常包含许多链接到其他视频的链接。在每个页面上，我们随机选择3-5个视频。我们多次这样做。然后，我们合并了所有视频并去除了重复项。至于用户反馈，我们浏览了所有收集的视频页面，并为每个视频收集了公共评论（包括弹幕评论），并确保每个视频最多有3500条用户评论。我们逐页爬取评论数据，我们收集的评论越多，它将需要的时间就越长。我们只记录了最新的一对用户-视频交互，尽管用户可能多次评论了一个视频。

对于源数据集，我们首先在几个月的数据收集后得到了Bili 500K，然后聚合了所有数据，并去除了少于10个行为的用户。然后我们继续在几个月内爬取更多数据，并聚合了所有现有数据，但只去除了少于5个行为的用户，从而产生了Bili 2M。由于Bili 2M的收集时间缓慢，我们在Bili 500K上进行了主要实验。类似地，我们从Bili的5个垂直频道和QB、TN、KU和DY等其他平台收集了数据。对于这些下游数据集，我们保持了相同的数据收集程序。在本文中，我们只保留了封面图像和标题描述来代表一篇文章或短视频，而不是新闻内容或原始视频。在基本处理之后，我们聘请了五名学生手动检查图像和文本的质量，并去除了大约1%的劣质项目（例如，只有黑色背景的图像、图像-文本不匹配、过于耸人听闻的文本描述等）。我们保留了这些数据集的主要属性，没有更多的预处理，因为它们可能对其他研究很重要。最终数据集的统计数据在表1中。源数据集Bili 2M包含144,146个原始图像，平均分辨率为1920x1080。所有下游Bili *数据集具有相同的分辨率，四个跨平台数据集的分辨率至少为300x400，满足了流行视觉编码器的基本要求。所有这些数据集的平均词长在16-34的范围内。

NineRec数据集的其他统计数据在图2中给出。首先，我们可以看到所有数据集的项目分布通常遵循长尾分布，这在许多先前的文献[24]中广泛观察到。其次，我们可以看到用户交互的数量主要在[5100]范围内，其中[5,20)是大多数。因此，我们通过将最大用户序列长度设置为23，并在用户交互不足时用零填充，来运行TransRec实验。第三，Bili 2M的交互主要发生在2017年和2022年之间。

2.3 版权和隐私

在本文中，我们严格遵循隐私保护措施，只收集公共用户行为。我们没有收集任何私人用户行为，如点击或观看时间。此外，我们收集的项目内容，包括缩略图和描述性文本，本身可以在平台的网页上自由访问，没有任何限制。用户帐户ID和项目ID也公开显示在这些平台上。尽管如此，我们已经采取了匿名处理的预防措施，以减少潜在的攻击。这些匿名项目ID可以用来使用我们的映射算法构建项目URL。我们已经在我们的下载软件中实现了映射算法和URL构建，确保研究人员只能通过我们的下载器访问数据。

关于版权问题，我们不直接提供项目封面图像。相反，我们提供了下载工具，允许数据用户通过解析提供的URL（URL嵌入在下载器中，不公开暴露给公众）直接从相应平台下载内容。这种方法确保了版权问题不会涉及，并且是学术文献中广泛采用的做法[25]、[26]。此外，对于可能已过期或不可用的视频，我们的下载器会自动在备份目录中找到它们，以确保永久访问和可下载性。

2.4 与现有数据集的比较

用于TransRec研究的数据集可以分为三种类型：具有重叠类别ID的数据集[7]、[24]、[27]，具有多模态编码器预先提取特征的数据集[28]、[29]、[30]、[31]、[32]，以及具有原始模态特征的数据集。虽然有许多公共数据集可供前两种类型使用，但后者却非常少。MIND（用于文本RS）、Amazon（用于产品RS）、Pinterest8[33]（用于图像RS）、WikiMedia[34]（用于图像RS）、GEST和Yelp[23]（用于食品推荐）具有原始模态特征。其中，MIND、Amazon、Yelp和GEST（即Google Restaurants）具有大规模。然而，MIND没有下游数据集。尽管Amazon的项目具有类别信息，但它们更像是跨类别推荐，而不是严格的跨域推荐，因为域的概念并不明确[35]。9相比之下，NineRec实现了跨域和跨平台推荐，因为NineRec的目标数据是从不同的推荐频道或不同系统收集的。与相关数据集的详细比较显示在附录表10中。

Amazon的另一个缺点是，它的图像主要是关于单一产品（例如鞋子、书籍、食品、电子产品），因此，在它们上训练的模型不能反映在其他更复杂和实际的图像场景中的真正性能（见图1）。同样，Yelp和GEST也因为大多数项目图像是关于食物和餐厅的，而遭受图像多样性问题的困扰。

新奇和局限性。首先，虽然有几个具有原始模态特征的大规模公共数据集可用，但它们的视觉或语义多样性有限，使得它们不适合作为预训练数据集。对于一个理想的预训练模型来说，从具有良好多样性的数据中学习是至关重要的。相比之下，NineRec的源数据集包含来自20多个不同视频频道的项目，提供了更广泛的视觉多样性。此外，NineRec还提供了9个目标任务，支持跨域和跨平台的推荐任务。其次，在现有数据集中观察到的用户行为，例如Amazon和GEST，主要不是由项目外观或模态特征驱动的。相反，它受到无数其他重要因素的影响，包括价格、销售、品牌、位置和用户的实际购买需求。也就是说，用户偏好不能主要从视觉特征学习。例如，当用户在亚马逊上购买婴儿奶粉时，更有可能是由于产品的质量和品牌，而不是其形象特征。相比之下，我们从内容共享平台收集的NineRec数据集中的外观特征是吸引用户观看或点击行为的合理的更重要的信号。具体而言，在短视频和信息流的背景下，用户往往会被动地接受平台的推荐，而不是像电商场景中看到的那样有特定的意图。此外，缩略图和标题的吸引力直观地影响用户对是点击还是观看视频的决定。因此，从这一角度出发，NineRec数据集是进行纯模态特征推荐研究的一个较为理想的数据集。此外，我们认为推荐系统社区不仅需要来自电子商务场景的数据集，还需要来自短视频和信息流上下文的数据集。这些都是非常不同的应用领域，在开发推荐算法时考虑它们是至关重要的。

值得注意的是，NineRec也有一些局限性：（1）某些用户交互可能会受到点击诱饵视频缩略图和标题的影响;（2）NineRec数据集来源于真实世界的推荐平台，导致数据分布可能包含曝光和流行偏见。这些因素可能会影响推荐系统的公平性。然而，我们保留了NineRec的原始数据分布，以最大限度地促进多样性研究。

3. TransRec相关工作

基础模型[5]在广泛数据上进行训练，并能够适应多种下游任务，已经将人工智能社区的研究范式从特定任务模型转变为通用模型。近年来，开发了一系列基础模型。其中，BERT、RoBERTa、GPT[36]、[37]、[38]和ChatGPT10因编码和生成文本数据而闻名，ResNet、ViT、Swin Transformer[39]和各种扩散模型[40]因编码和生成视觉数据而知名，而CLIP[41]和DALL.E[14]则因多模态研究而知名。

与NLP和CV不同，到目前为止，RS社区还没有在基础模型方面取得高度认可的开创性工作。PeterRec[6]、DUPN[42]、STAR[43]和Conure[7]等最近的工作在学习通用（用户或项目）表示方面进行了一些有意义的探索。然而，它们都属于IDRec类别，当下游数据集缺乏重叠的userID或itemID时，它们的迁移学习能力有限[44]。最近，研究人员开始直接从原始模态特征[12]、[45]学习RS模型。ZESREC[46]是第一篇实现文本RS的零样本迁移学习能力的论文，而没有使用用户或项目重叠信息。类似的工作包括ShopperBERT[47]、PTUM[48]、UniSRec[13]、IDA-SR[49]、VQ-Rec[50]、LLM4Rec[16]。所有这些工作只关注文本模态，主要基于从冻结的文本编码器预先提取的文本特征。三篇预印本，即TransRec[15]、AdapterRec[10]、LLM-REC[51]和并发工作Recformer[45]和LMRec[52]，对模态编码器进行了联合或端到端（E2E）训练，但它们大多数只研究了一种类型的UE和ME，而对于其他更先进的UE和ME，以及训练方式则不得而知。P5[53]、M6Rec[21]和Conure[7]提出了一个统一模型，用于多个任务，如评论摘要、评分预测、用户档案预测和项目推荐。

在本文中，我们在E2E学习的TransRec上报告了基准结果，这在计算上非常昂贵，但比预先提取的特征表现得好得多。

4. 基线概述

基于模态的推荐（MoRec）。设U、I分别为用户和项目集。RS的目标是利用用户u ∈ U过去的行為Iu = {i1, ..., in}来预测用户u与项目i的潜在交互。在经典的IDRec设置中，用户和项目通常由其唯一ID表示。因此，userID和itemID可以嵌入到一系列密集向量中，表示为βu ∈ Rd和βi ∈ Rd，其中d是嵌入大小，每个向量都是用户或项目的表示。MoRec则应用模态编码器（ME），表示为f(xi)，对项目i的模态特征xi进行编码。MoRec基本上可以继承IDRec的其他模块，如用户编码器或推荐主干。理论上，可以通过简单地将IDRec中的βi替换为f(xi)来构建各种MoRec模型。在本文中，我们将MoRec的范围限制为只从纯模态特征中学习推荐模型，而不是将它们视为ID特征的辅助特征。这与大多数先前的工作[28]、[54]不同，它们使用ID作为主要特征，模态作为辅助特征。然而，这种范式不适合实现可转移推荐的目标，因为共享或转移ID特征在实际中面临挑战[12]、[13]、[15]。

TransRec。RS模型通常由用户编码器（UE）g(xu)、项目编码器f(xi)和它们的点积组成。要实现基础TransRec模型，UE和ME应该是可转移的。也就是说，通常使用的userID不应该存在于TransRec中。常见的方法是用她交互的项目序列Iu替换userID，这些项目再次由ME编码，即

，其中G(·)通常可以是序列编码器。因此，现有的TransRec模型主要是基于序列的推荐模型或基于序列的MoRec，例如PTUM[48]、CLUE[55]、TransRec[15]、UniSRec[13]、VQ-Rec[50]和AdapterRec[10]。在本文中，我们使用最著名的G(·)对TransRec进行基准测试，包括基于RNN的GRU4Rec[56]、基于CNN的NextItNet、基于多头自注意力（MHSA）的SASRec、BERT4Rec，以及标准的基于DNN的编码器。虽然文献中有一些新的SOTA序列模型，但我们发现它们大多数可以被视为上述经典模型的变体（特别是Transformer[57]的变体）。

训练细节。TransRec模型首先在源域用足够的数据进行预训练，然后微调以服务于相对较少数据的各种目标域。TransRec的训练过程与IDRec模型没有太大区别。它涉及计算正用户-项目对和一个随机选择的负对的嵌入向量的点积。然后，根据这些点积计算典型的二元交叉熵损失。最近的文献[12]、[45]、[58]清楚地表明，端到端（E2E）学习比使用从冻结的多模态编码器预先提取的模态特征要有效得多。因此，在我们的基线中，我们采用E2E学习来报告基线结果。

其次，我们评估两种流行的训练模式：序列到序列（S2S）和序列到一个（S2O），见图3。它们都编码项目序列作为输入，S2O只预测最后一个项目，而S2S预测一系列项目。也就是说，S2S的（输入 → 输出）格式是i1, i2, ..., in-1 → i2, i3, ..., in，S2O的格式是i1, i2, ..., in-1 → in。显然，S2O训练架构本质上是两塔DSSM[59]模型的变体，其中一个塔代表用户序列，另一个塔代表目标项目。在本文中，我们在源和目标数据集上优化了所有参数。实际上，对于一些数据集，通过调整一些顶层可能获得相似的结果。

5. TransRec基准

5.1 评估

我们采用留一法来分割每个数据集，即每个用户的最后一次交互用于测试，倒数第二次用于验证，其余用于训练。流行的H@10（Hit Ratio @10）和N@10（Normalized Discounted Cumulative Gain @10）用作评估指标[24]。为节省空间，我们在附录中报告了N@10的结果。我们将预测的项目在所有项目池中的排名，而不是抽取100个随机项目[60]。

5.2 实验设置

考虑到TransRec的早期阶段，确保IDRec和TransRec在公平比较中使用相同的网络主干和训练方法是至关重要的。这包括使用相同的损失函数和采样器，唯一的区别是用状态-of-the-art模态编码器替换原始的项目ID。这种设置使得两个模型之间的公平直接比较成为可能。一些文献使用相对较小的ID嵌入大小进行IDRec，使得他们的MoRec或TransRec更容易取得性能提升。此外，还有一些研究使用不同的网络主干和采样器比较TransRec和IDRec。然而，我们认为，当它们之间有多个因素不同时，对两个模型进行公平比较变得具有挑战性。

关于超参数设置，我们的首要原则是确保IDRec在上游和下游数据集上都进行了极度调整，包括学习率γ、嵌入/隐藏大小d、层数l、dropout ρ、批量大小b等。例如，我们通过搜索[5e-6, 1e-5, 5e-5, 1e-4, 5e-4, 1e-3]来调整γ，搜索[64, 128, 256, 512, 1024, 2048]来调整d。类似地，我们找到了其他超参数的最优值。对于TransRec，我们首先使用与IDRec相同的超参数集，然后在最佳选择周围进行搜索（搜索范围和步长与IDRec完全相同）。这是找到TransRec在源和目标数据集上更好超参数的更快和公平的方式。值得注意的是，迭代所有TransRec的超参数组合是不可行的，因为通常以端到端方式训练它需要比IDRec大100倍的计算和时间（见附录表5）。

NineRec中的所有图像都被调整为224 × 224像素的形状。文本描述限制在最多30个中英文单词。

5.3 基准用户编码器

在表2中，我们的基准涵盖了几种最经典的推荐主干（基于RNN的GRU4Rec、基于CNN的NextItNet、基于MHSA的SASRec和BERT4Rec，以及附录表6中的两个基于DNN的模型），通过将它们的原始项目ID替换为项目ME，在九个目标任务中对两个单一模态进行端到端训练。我们还在附录表11中报告了两个额外的同行评审基线UniSRec[13]和VQRec[50]。我们的结果表明，这些模型在公平比较设置下没有胜过经典方法。

关于模态编码器，我们使用BERT14进行文本推荐，使用Swin Transformer进行图像推荐。除非特别说明，这里的所有模型都使用S2S模式（见图3）进行训练。此外，（1）我们在表6和附录表9中报告了使用SASRec主干的多模态推荐的基准结果；（2）我们在附录表6中报告了两个DNN主干基线；（3）我们在表7中报告了S2O训练基线的结果；（4）我们在附录表7中报告了在源Bili 500K数据集上的结果；（5）我们还在附录表2和8中报告了在源和目标数据集上使用更大的Bili 2M数据集的结果。

除了基准结果之外，我们还有一些深刻的发现，如下所示。注意，在本文中，我们主要使用Bili 500K作为源数据集，除非另有说明，并在附录中提供了一些关键结果，使用了Bili 2M，考虑到极高的训练成本。

表2、6、7和附录表6表明，TransRec在源数据集上进行预训练（即HasPT）的版本大多比其NoPT版本表现得更好。这些结果突出了预训练的有效性，并表明NineRec数据集非常适合迁移学习研究。
表2和7表明，在文本模态上预训练的TransRec通常明显优于其IDRec对应物。同时，如果预训练是在图像模态上进行的，它有时表现得比IDRec差。在源数据集和两个非常温暖的数据集上也可以观察到类似的结果，见附录表7和8。以前的工作主要关注TransRec在冷启动场景中胜过IDRec。然而，在非冷启动场景中击败IDRec标志着一个重要的进步，并可能预示着推荐系统未来范式的转变。这尤其值得注意，考虑到IDRec在过去10年中一直是最先进的方法。
表6表明，训练在多模态（文本和图像）特征上的TransRec模型并不总是胜过训练在单一模态上的模型（即表2）。这是一个合理的观察（也在文献[65]中观察到），因为在端到端学习范式中有效地融合文本和图像模态在推荐模型中是一个非平凡的挑战，这在很大程度上仍未被探索。
表2和附录表7表明，具有更高IDRec准确性的推荐网络，如SASRec与BERT4Rec相比，并不一定导致在TransRec或MoRec上具有更高的准确性，即使使用相同的ME。

一个令人惊讶的结果是，在学习MoRec/TransRec时可能会发生模型崩溃，如表2中用斜体标记的。我们发现，有时很难联合学习BERT4Rec和Swin Transformer，即使进行了许多超参数搜索。这是社区未知的。根据这些广泛的结果，可以得出更多有趣的发现（见附录）。

5.4 基准项目编码器

图4和表5展示了几个知名项目ME模型的评估，如不同模型大小的ResNet和Swin Transformer用于图像推荐，以及RoBERTa和OPT[66]用于文本推荐。除非另有说明，TransRec在后续部分使用SASRec主干和S2S训练模式。大部分观察结果与上述发现一致。有趣的是，我们发现在源Bili 500K数据集上预训练TransRec（HasPT），使用ResNet50作为ME，并不总是比其NoPT版本获得更好的结果。这个结果有些出乎意料，因为它表明ResNet50的参数在预训练在Bili 500K后可能会退化。这是出乎意料的，但并非不可能。事实上，表2也显示了几个类似的结果。为了看看为什么，我们展示了ResNet50没有在ImageNet上预训练的结果（即TFS）。可以清楚地看到，TFS在很大程度上落后于NoPT和HasPT。这表明在ImageNet上预训练的ResNet50参数作为初始化步骤非常有益，因此，额外在Bili 500K上的训练可能并不总是为其他下游任务带来显著的好处。

5.5 端到端（E2E）与两阶段（TS）基准

通过调查文献，我们发现大多数先前的MoRec/TransRec研究采用两阶段（TS）训练方法[67]、[68]、[69]：首先通过ME预先提取离线模态特征，然后将它们作为常规特征纳入推荐模型。近两年来，端到端（E2E）训练方法引起了关注，但主要是用于文本推荐[45]、[58]。我们在表3中报告了E2E与TS的结果。显然，通过E2E训练ME的TransRec在文本和图像模态上都显著优于TS方法。对于一些文本推荐任务（例如Bili Movie、Bili Cartoon、TN和DY），E2E可能实现超过200%的更高准确性。结果表明，直接从预训练的模态编码器提取的现成表示特征与NLP、CV和推荐任务之间存在相当大的差距，即这些特征不是通用的或至少不够具体。

6. 零样本推荐

零样本学习是NLP和CV中一个非常具有挑战性的任务。尽管通过微调的预训练TransRec实现了竞争结果，但我们理想地希望它在不针对下游数据集进行参数微调的情况下也能取得令人满意的结果。这也是基础模型的一个重要目标。我们将这种推荐设置称为零样本推荐，与[14]一致。

我们在表4中报告了结果。首先，我们可以看到，经过预训练（但未微调）的TransRec模型比随机基线实现了7倍-70倍（例如0.16 vs 11.32）更好的结果。这清楚地表明，源域中的预训练表示具有一定的通用性。其次，我们也发现TransRec的零样本预测性能远远落后于其微调方法（见表2）。这表明源域中的预训练表示远非完美。我们推测，通过在显著更大的源数据集（例如100倍-1000倍更大）或多个不同源数据集上进行预训练或者使用更大的模型尺寸，可能提高性能。这种现象被称为基础模型的“突现能力”[70]。换句话说，像NLP和CV一样，推荐模型在零样本任务上也面临巨大挑战。我们不确定NineRec是否能够解决这个问题，但相信NineRec可以激发新的工作和新的数据集。

7. 结论、局限性、更广泛的影响

在没有大规模和真实世界数据集的情况下，发展推荐系统（RS）领域的研究方向是具有挑战性的；同样，在没有公共基准的情况下衡量真正的进步也同样困难。在本文中，我们介绍了NineRec数据集套件和基准，旨在通过利用原始和纯净的模态特征来推动RS领域中的迁移学习和基础模型。通过实证研究，我们还报告了几个值得注意的发现。鉴于该领域的快速发展和高计算需求，评估所有现有的RS架构、变体和设置（例如各种采样器和损失函数）是不可行的。然而，我们可以建立公共排行榜，以促进社区跟踪最新的最新模型。

本文中未解决的局限性和挑战有很多。首先，虽然我们通过组合IDRec中的流行用户编码器（UE）和NLP和CV中的流行项目模态编码器（ME）来开发TransRec，但我们承认这可能不是最佳方法。可能只有专门设计的UE和ME才能充分实现TransRec的迁移学习潜力。第二，我们需要考虑过去十年为IDRec开发的优化和超参数搜索技术是否也适用于MoRec和TransRec。第三，我们需要研究在端到端学习范式中适当对齐和融合多模态特征。此外，我们需要解决在实际系统中与端到端训练TransRec相关的显著计算成本。这在处理比本研究中使用的数据集大100倍或1000倍的数据集时尤其重要。实际上，TransRec或基础模型在推荐问题上仍处于早期开发阶段。到目前为止，还没有广泛认可的TransRec范式。然而，我们相信NineRec可以通过激发新问题、新思路和新研究来推动该领域的发展。

在本文中，我们主要研究NineRec用于可转移推荐研究。然而，NineRec在RS领域还有其他潜在应用。例如，许多广泛使用的RS数据集仅提供项目ID信息，这限制了研究人员充分了解他们的推荐系统在准确性分数之外推荐的内容。通过利用NineRec，研究人员可以更好地了解他们的RS模型，特别是对于可解释RS[71]和视觉感知RS评估[72]问题。这最终可能导致更有效和可解释的RS模型。此外，许多NLP和CV领域的研究人员目前正在开发具有通用表示的模态编码器[73]。然而，这些模型通常只在标准NLP和CV任务上进行评估，如图像分类。我们认为，涉及预测用户偏好的推荐任务比这些基本下游任务更具挑战性。因此，NineRec对NLP和CV研究人员可能至关重要，甚至可能促进RS与NLP和CV领域的整合。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 PaperEveryday 小编

http://mp.weixin.qq.com/s?__biz=MzI3NzI0MTk1OQ==&mid=2247502318&idx=2&sn=f0409ba9639254f8d418bbbb425bedbc

PaperEveryday

为大家分享计算机和机器人领域顶级期刊