RecSys2024 | 蒸馏很重要! 大模型赋能传统序列推荐

科技   2024-08-20 08:02   新加坡  
嘿,记得给“机器学习与推荐算法”添加星标

TLDR: 为了结合大模型推荐的性能优势与传统推荐模型的效率优势,本文提出了一种新的蒸馏策略来将大模型推荐中的知识迁移到传统推荐模型。

论文:https://arxiv.org/pdf/2405.00338

由于其强大的语义推理能力,大语言模型已被有效地用作推荐模型,并且取得了令人印象深刻的性能。然而,大语言模型的高推理延迟严重限制了其实际部署。如下图所示,大模型推荐算法(BIGRec)的性能优于序列推荐算法(DROS),但其推理效率却明显存在差距。

为解决该问题,本文研究了从"笨重"的大模型推荐算法到轻量级的传统序列模型的知识蒸馏。但其主要面临三个关键挑战:

  • 1)教师的知识可能并不总是可靠的;
  • 2)教师和学生之间的能力差距使得学生难以吸收教师的知识;
  • 3)语义空间的差异对从语义向量中提取知识提出了挑战。

为应对这些挑战,本文提出了一种新的蒸馏策略DLLM2Rec,专门用于从大模型推荐算法到传统序列模型的知识蒸馏。DLLM2Rec包括两个组件:重要性感知的排序蒸馏和协同嵌入蒸馏。

重要性感知的排序蒸馏

本文没有直接对齐教师和学生之间的排序列表,而是通过引入重要性权重,突出可靠和对学生友好的实例来进行蒸馏。该方法评估了大模型响应与目标正例之间的语义相似度,相似度较低表明响应质量较低,建议在蒸馏中对此类实例进行降权。此外,受"群体智慧"的启发,利用学生和教师之间的模型一致性来评估实例的重要性,优先考虑不同模型同意更高项目排名的实例。这样的实例对学生模型来说也是相对容易和友好的,有助于学生从老师那里吸收知识。

协同嵌入蒸馏

为缓解教师和学生嵌入空间之间的语义鸿沟,本文采用可学习投影(如mlp)将原始嵌入从教师映射到学生的嵌入空间。此外,与直接将学生嵌入与教师的投影嵌入对齐不同,其引入了一个灵活的偏移项,可以捕获协同信号,进一步与教师的投影嵌入集成,以生成丰富的学生嵌入。该设计有效地利用了教师的知识,同时保留了其捕获协同信号的能力。

本文通过大量的实验验证了所提出方法的有效性,使三个典型的序列模型的推荐性能平均提升了47.97%,甚至在某些情况下超过了大模型推荐算法。

更多技术细节请阅读原始论文。

欢迎干货投稿 \ 论文宣传 \ 合作交流

推荐阅读

RecSys2024推荐系统论文整理
论文周报[0805-0811] | 推荐系统领域最新研究进展
KDD2024 | 基于生成流网络的用户留存建模

由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇

机器学习与推荐算法
专注于分享经典的推荐技术,致力于传播基础的机器学习、深度学习、数据挖掘等方面的知识。
 最新文章