论文:https://arxiv.org/pdf/2405.00338
由于其强大的语义推理能力,大语言模型已被有效地用作推荐模型,并且取得了令人印象深刻的性能。然而,大语言模型的高推理延迟严重限制了其实际部署。如下图所示,大模型推荐算法(BIGRec)的性能优于序列推荐算法(DROS),但其推理效率却明显存在差距。
为解决该问题,本文研究了从"笨重"的大模型推荐算法到轻量级的传统序列模型的知识蒸馏。但其主要面临三个关键挑战:
1)教师的知识可能并不总是可靠的; 2)教师和学生之间的能力差距使得学生难以吸收教师的知识; 3)语义空间的差异对从语义向量中提取知识提出了挑战。
为应对这些挑战,本文提出了一种新的蒸馏策略DLLM2Rec,专门用于从大模型推荐算法到传统序列模型的知识蒸馏。DLLM2Rec包括两个组件:重要性感知的排序蒸馏和协同嵌入蒸馏。
重要性感知的排序蒸馏
本文没有直接对齐教师和学生之间的排序列表,而是通过引入重要性权重,突出可靠和对学生友好的实例来进行蒸馏。该方法评估了大模型响应与目标正例之间的语义相似度,相似度较低表明响应质量较低,建议在蒸馏中对此类实例进行降权。此外,受"群体智慧"的启发,利用学生和教师之间的模型一致性来评估实例的重要性,优先考虑不同模型同意更高项目排名的实例。这样的实例对学生模型来说也是相对容易和友好的,有助于学生从老师那里吸收知识。
协同嵌入蒸馏
为缓解教师和学生嵌入空间之间的语义鸿沟,本文采用可学习投影(如mlp)将原始嵌入从教师映射到学生的嵌入空间。此外,与直接将学生嵌入与教师的投影嵌入对齐不同,其引入了一个灵活的偏移项,可以捕获协同信号,进一步与教师的投影嵌入集成,以生成丰富的学生嵌入。该设计有效地利用了教师的知识,同时保留了其捕获协同信号的能力。
本文通过大量的实验验证了所提出方法的有效性,使三个典型的序列模型的推荐性能平均提升了47.97%,甚至在某些情况下超过了大模型推荐算法。
欢迎干货投稿 \ 论文宣传 \ 合作交流
推荐阅读
由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。
由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。