导读
大型语言模型(LLM)正在深刻地影响自然语言处理(NLP)领域,其强大的处理各种任务的能力也为其他领域的从业者带来了新的探索路径。推荐系统(RS)作为解决信息过载的有效手段,已经紧密融入我们的日常生活,如何用LLM有效重塑RS是一个有前景的研究问题[20, 25]。
这篇文章从生成式推荐系统和京东联盟广告的背景入手,首先引出两者结合的动因与策略,随后我们对当前的流程和方法进行了细致的回顾与整理,最后详细介绍了我们在京东联盟广告领域的应用实践。通过深入分析与案例展示,本文旨在为广告领域的推荐系统带来新的见解和启发。
本文作者为京东DMT博士管培生
导读
大型语言模型(LLM)正在深刻地影响自然语言处理(NLP)领域,其强大的处理各种任务的能力也为其他领域的从业者带来了新的探索路径。推荐系统(RS)作为解决信息过载的有效手段,已经紧密融入我们的日常生活,如何用LLM有效重塑RS是一个有前景的研究问题[20, 25]。
这篇文章从生成式推荐系统和京东联盟广告的背景入手,首先引出两者结合的动因与策略,随后我们对当前的流程和方法进行了细致的回顾与整理,最后详细介绍了我们在京东联盟广告领域的应用实践。通过深入分析与案例展示,本文旨在为广告领域的推荐系统带来新的见解和启发。
生成式推荐系统
A generative recommender system directly generates recommendations or recommendation-related content without the need to calculate each candidate’s ranking score one by one[25].
2)具备更好的泛化性和稳定性。利用LLM中的世界知识和推理能力,在具有新用户和物料的冷启动和新领域场景下具备更好的推荐效果和迁移效果。同时,相比于传统RS,生成式推荐系统的方法也更加具备稳定性和可复用性。特征处理的策略随场景和业务的变化将变小、训练数据量将变少,模型更新频率将变低。
京东联盟广告
联盟广告推荐主要针对低活跃度用户进行多场景推荐,这样的推荐面临如下的挑战:
1)数据稀疏性:低活跃度用户提供的数据较少,导致更加明显的数据稀疏性问题。数据不足使得基于ID的传统推荐模型难以充分地对物料和用户进行表征,进而影响推荐系统的预测准确性。
京东联盟广告+生成式推荐系统
生成式推荐系统的四个环节
物料表示
An identifier in recommender systems is a sequence of tokens that can uniquely identify an entity, such as a user or an item. An identifier can take various forms, such as an embedding, a sequence of numerical tokens, and a sequence of word tokens (including an item title, a description of the item, or even a complete news article), as long as it can uniquely identify the entity[25].
推荐系统中的物料通常包含来自不同模态的各种信息,例如,视频的缩略图、音乐的音频和新闻的标题。因此,物料标识符需要在文本空间中展示每个物料的复杂特征,以便进行生成式推荐。一个好的物料标识符构建方法至少应满足两个标准:
2)将先验信息集成到物料索引结构中,以确保相似项目在可区分的同时共享最多的token,不相似项目共享最少的token。
由于数字在传统RS中被广泛地使用,一个直接的策略是在生成式推荐系统中也使用数字ID来表示物料。传统RS将每个物料ID视为一个独立且完整的token,不能被进一步分割。如果将这些token加入到模型中,需要1)大量的内存来存储每个token的向量表示,以及2)充足的数据来训练这些向量表示。为了解决这些问题,生成式推荐系统将数字ID分割成多个token组成的序列,使得用有限的token来代表无限的物料成为可能。为了有效地以token序列表示一个物料,现有的工作探索了不同的策略。
1)顺序索引:基于时间顺序,利用连续的数字表示物料,例如,“1001, 1002, ...”,这可以捕捉与同一用户交互的物料的共现(基于SentencePiece分词器进行分词时,“1001”和“1002”分别被分词为“100”“1”和“100”“2”)。
为了解决数字ID中缺乏语义信息的问题,一些研究工作利用了物料的文本元数据,例如,电影标题,产品名称,书名,新闻标题等。在与LLM结合时可借助LLM中编码的世界知识更好地理解物料特性。但这种方式有两个问题:
1)当物料表示文本非常长时,进行生成的计算成本会很高。此外,长文本很难在数据集中找到精确匹配;仔细检查每个长文本的存在性或相关性将使我们回到判别性推荐的范式,因为我们需要将其与数据集中的每个物料计算匹配得分。
为了同时获得具有语义和区分性的物料标识符,现有方法主要通过如下方式对物料向量进行离散化:
1)基于RQ-VAE模型[8]。RQ-VAE模型由编码器,残差量化和解码器三部分构成,其输入是从预训练的语言模型(例如,LLaMA[9]和BERT[28])提取的物料语义表示,输出是物料对应的token序列。在这个分支中,TIGER[7]是一个代表性的工作,它通过物料的文本描述生成对应的token序列,并将token序列命名为Semantic ID。LC-Rec[4]设计了多种微调LLM的任务,旨在实现Semantic ID与用户交互数据或物料文本描述的语义对齐。这两种方法首先将物料的语义相关性捕获到标识符中,即具有相似语义的项目将拥有相似的标识符。然后,标识符表示将通过在推荐数据上训练来优化,以获取交互相关性。相比之下,LETTER[6]通过整合层次化的语义、协同信号和编码分配的多样性来构建高质量的物料标识符。
以上三类表示方法的对比如下:
模型输入表示
用户的历史交互数据在推荐系统中扮演着至关重要的角色,这种互动数据隐性地传达了用户对物料的偏好。用户历史交互数据的表示与上文介绍的物料表示密切相关,现有方法将其表示为:
1)物料数字ID序列。物料数字ID被LLM作为纯文本处理,由分词器分割成几个token。
2)物料文本序列。将物料文本元数据进行拼接送入预训练语言模型,语言模型可根据世界知识建模物料之间的相关性。
模型训练
针对生成式推荐系统,“用户到物料标识符的训练”是主要任务,即输入是用户构建,输出是下一个物料的标识符。基于数字ID和文本元数据的方法利用该任务进行模型训练。对于基于语义ID的方法,由于语义ID和自然语言之间存在差距,一般会利用如下辅助任务来增强物料文本和标识符之间的对齐[4]:
1)“物料文本到物料标识符的训练”或“物料标识符到物料文本的训练”。对于每个训练样本,输入输出对包括同一物料的标识符和文本内容,可以互换地作为输入或输出。
模型推理
现有工作总结
当前生成式推荐系统的代表性工作(RecSysLLM[22],P5[20][24],How2index[18],PAP-REC[17],VIP5[19],UniMAP[27],TIGER[7],LC-Rec[4],TransRec[16],M6-Rec[21],BIGRec[23],LMRecSys[10],NIR[12],RecRanker[13],InstructRec[11],Rec-GPT4V[14],DEALRec[15])可总结为:
实践方案
总体设计
基于对现有工作的调研和总结,我们的方案以“基于语义ID的物料表示”和“对齐协同信息和文本信息的训练任务”展开:
功能模块
物料SID:基于RQ-VAE模型对物料向量进行量化。RQ-VAE模型由编码器,残差量化和解码器三部分构成,其输入是从预训练的语言模型中提取的向量,输出是物料对应的SID序列。针对冲突数据,我们采取了两种方式,一种是不进行处理,即一个SID对应多个商品;另一种是采用TIGER的方案,对有冲突的商品增加随机的一维,使得一个SID唯一对应一个商品。例如,商品“ThinkPad 联想ThinkBook 14+ 2024 14.5英寸轻薄本英特尔酷睿ultra AI全能本高性能独显商务办公笔记本电脑”可表示为:<a_99><b_225><c_67><d_242>或<a_99><b_225><c_67><d_242><e_0>。
Additional Alignment:由于SID和自然语言之前存在差距,通过额外的对齐训练,建立物料SID和物料文本描述之间的联系,包括SID到文本描述和文本描述到SID的两个双向任务。
离线与在线实验
训练数据
{
"instruction": "该用户为都市女性。用户已按时间顺序点击了如下商品:<a_112><b_238><c_33><d_113>, <a_73><b_50><c_228><d_128>, <a_20><b_251><c_30><d_178>, <a_142><b_216><c_7><d_136>, <a_190><b_171><c_15><d_201>, <a_72><b_160><c_20><d_248>, <a_158><b_101><c_54><d_107>, <a_175><b_4><c_75><d_138>, <a_142><b_20><c_175><d_136>, <a_210><b_166><c_67><d_44>, <a_10><b_89><c_96><d_143>, <a_27><b_45><c_21><d_212>, <a_142><b_27><c_192><d_159>,你能预测用户下一个可能点击的商品吗?",
"response": "<a_96><b_113><c_49><d_174>"
}
{
"instruction": "商品<a_99><b_225><c_67><d_242>的标题是什么?",
"response": "ThinkPad 联想ThinkBook 14+ 2024 14.5英寸轻薄本英特尔酷睿ultra AI全能本高性能独显商务办公笔记本电脑 Ultra5 125H 32G 1T 3K屏 高刷屏"
}
{
"instruction": "哪个商品的标题是\"ss109威震天变形MP威震玩具天金刚飞机威男孩机器人战机模型合金 震天战机(战损涂装版)\"?",
"response": "<a_91><b_24><c_66><d_5>"
}
基座模型、训练及推理
(1)base model: Qwen1.5-0.5B/1.8B/4B和Yi-6B
(2)基于SID增加新tokens,并利用交互数据进行训练
(3)采用基于beam search的受限解码策略,beam size=20
(4)实验方式:离线实验+线上小流量实验
(5)离线评估指标:HR@1,5,10; NDCG@1,5,10
实验结果
(1)离线实验——同一基座模型不同参数规模的对比:
对比0.5B/1.8B/4B的结果可得,模型参数量越大,处理多种任务的能力越强,评估指标值越高;
由于0.5B模型能力较弱,不适宜处理多种任务数据,单一任务训练得到的模型相较混合任务有8倍提升;
在离线训练和测试数据有3个月的时间差的情况下,模型的表现仍然可观。
(2)离线实验——不同基座模型的对比:
Yi-6B模型在不使用受限解码的情况下就有最佳的表现; 微调后的Yi-6B指令遵循的能力较好,可进行next item prediction和标题文本生成。
(3)离线实验——与协同模型结果对比:
在相同的数据规模和数据预处理的情况下,Yi-6B模型的效果更好;
对稀疏数据进行过滤后训练的协同模型效果会有显著提升,传统模型对数据和特征的处理方式更为敏感。
(4)线上小流量实验:
多个置信的站外投放页面的小流量实验显示,基于生成式模型base版本可与传统多路召回+排序的top1推荐对应的UCTR结果持平,在部分页面更优,UCTR+5%以上;
更适合数据稀疏、用户行为不丰富的场景。
优化方向
我们的目标是通过持续的技术革新,推动推荐系统的发展,实现更高效、更个性化的用户服务。欢迎对这一领域感兴趣的合作伙伴加入我们,共同探索生成式推荐系统技术的未来。
参考文献
1.Wang Y, Ren Z, Sun W, et al. Enhanced generative recommendation via content and collaboration integration[J]. arXiv preprint arXiv:2403.18480, 2024.
2.Liao J, Li S, Yang Z, et al. Llara: Large language-recommendation assistant[J]. Preprint, 2024.
3.Zhang Y, Feng F, Zhang J, et al. Collm: Integrating collaborative embeddings into large language models for recommendation[J]. arXiv preprint arXiv:2310.19488, 2023.
4.Zheng B, Hou Y, Lu H, et al. Adapting large language models by integrating collaborative semantics for recommendation[J]. arXiv preprint arXiv:2311.09049, 2023.
5.Wu Y, Feng Y, Wang J, et al. Hi-Gen: Generative Retrieval For Large-Scale Personalized E-commerce Search[J]. arXiv preprint arXiv:2404.15675, 2024.
6.Wang W, Bao H, Lin X, et al. Learnable Tokenizer for LLM-based Generative Recommendation[J]. arXiv preprint arXiv:2405.07314, 2024.
7.Rajput S, Mehta N, Singh A, et al. Recommender systems with generative retrieval[J]. Advances in Neural Information Processing Systems, 2024, 36.
8.Zeghidour N, Luebs A, Omran A, et al. Soundstream: An end-to-end neural audio codec[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 30: 495-507.
9.Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.
10.Zhang Y, Ding H, Shui Z, et al. Language models as recommender systems: Evaluations and limitations[C]//I (Still) Can't Believe It's Not Better! NeurIPS 2021 Workshop. 2021.
11.Zhang J, Xie R, Hou Y, et al. Recommendation as instruction following: A large language model empowered recommendation approach[J]. arXiv preprint arXiv:2305.07001, 2023.
12.Wang L, Lim E P. Zero-shot next-item recommendation using large pretrained language models[J]. arXiv preprint arXiv:2304.03153, 2023.
13.Luo S, He B, Zhao H, et al. RecRanker: Instruction Tuning Large Language Model as Ranker for Top-k Recommendation[J]. arXiv preprint arXiv:2312.16018, 2023.
14.Liu Y, Wang Y, Sun L, et al. Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models[J]. arXiv preprint arXiv:2402.08670, 2024.
15.Lin X, Wang W, Li Y, et al. Data-efficient Fine-tuning for LLM-based Recommendation[J]. arXiv preprint arXiv:2401.17197, 2024.
16.Lin X, Wang W, Li Y, et al. A multi-facet paradigm to bridge large language model and recommendation[J]. arXiv preprint arXiv:2310.06491, 2023.
17.Li Z, Ji J, Ge Y, et al. PAP-REC: Personalized Automatic Prompt for Recommendation Language Model[J]. arXiv preprint arXiv:2402.00284, 2024.
18.Hua W, Xu S, Ge Y, et al. How to index item ids for recommendation foundation models[C]//Proceedings of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval in the Asia Pacific Region. 2023: 195-204.
19.Geng S, Tan J, Liu S, et al. VIP5: Towards Multimodal Foundation Models for Recommendation[C]//Findings of the Association for Computational Linguistics: EMNLP 2023. 2023: 9606-9620.
20.Geng S, Liu S, Fu Z, et al. Recommendation as language processing (rlp): A unified pretrain, personalized prompt & predict paradigm (p5)[C]//Proceedings of the 16th ACM Conference on Recommender Systems. 2022: 299-315.
21.Cui Z, Ma J, Zhou C, et al. M6-rec: Generative pretrained language models are open-ended recommender systems[J]. arXiv preprint arXiv:2205.08084, 2022.
22.Chu Z, Hao H, Ouyang X, et al. Leveraging large language models for pre-trained recommender systems[J]. arXiv preprint arXiv:2308.10837, 2023.
23.Bao K, Zhang J, Wang W, et al. A bi-step grounding paradigm for large language models in recommendation systems[J]. arXiv preprint arXiv:2308.08434, 2023.
24.Xu S, Hua W, Zhang Y. Openp5: Benchmarking foundation models for recommendation[J]. arXiv preprint arXiv:2306.11134, 2023.
25.Li L, Zhang Y, Liu D, et al. Large language models for generative recommendation: A survey and visionary discussions[J]. arXiv preprint arXiv:2309.01157, 2023.
26.Li Y, Lin X, Wang W, et al. A Survey of Generative Search and Recommendation in the Era of Large Language Models[J]. arXiv preprint arXiv:2404.16924, 2024.
27.Wei T, Jin B, Li R, et al. Towards Universal Multi-Modal Personalization: A Language Model Empowered Generative Paradigm[C]//The Twelfth International Conference on Learning Representations. 2023.
28.Kenton J D M W C, Toutanova L K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of NAACL-HLT. 2019: 4171-4186.