TLDR: 针对多层感知机协同过滤方法存在的灾难性遗忘问题,本文提出了一种新的基于Kolmogorov-Arnold网络(KANs)的协同过滤方法。通过在边上学习非线性函数,KANs对灾难性遗忘问题比多层感知机更鲁棒。
论文:https://arxiv.org/abs/2409.05878
代码:https://github.com/jindeok/CF-KAN
协同过滤在推荐系统中至关重要,它利用用户-项目交互来提供个性化偏好建模。随着时间的推移,标准的协同过滤技术已经发展成基于多层感知机的复杂架构,其主要原理是在线性转换后对同层中的每个节点应用固定的非线性激活函数。例如,利用基于多层感知机的自动编码器来重建每个用户和所有项目之间的交互;多层感知机被用于学习协同过滤扩散模型中的去噪过程等。然而,众所周知,多层感知机容易发生灾难性遗忘问题,即当模型学习到新信息时会丢失先前获得的知识,这可能会导致次优的推荐精度。
与此同时,Kolmogorov-Arnold networks (KANs)网络最近成为多层感知机的一种有潜力的替代神经网络架构。受Kolmogorov- arnold表示定理的启发,研究者设计了KANs来克服多层感知机的基本局限性。具体来说,与在节点上具有固定激活函数的多层感知机不同,KANs在边(权重)上包含可学习的激活函数。这种独特的结构使KANs能够更有效地学习非线性函数,并对灾难性遗忘具有鲁棒性,使它们特别适合持续学习的环境。
虽然KANs通常被证明是非常有效的,但他们的性能并不总是超过所有领域的多层感知机(MLPs)。例如,在物理方程的回归任务中,KANs比MLPs显示了优越的结果以及时间序列任务。然而,在图像领域,除非经过精心设计和优化,否则与MLPs或卷积神经网络(CNNs)相比,KANs可能表现欠佳。这是因为常规的KANs不能有效地在图像域对局部像素的空间依赖性建模。同样,尽管KANs是强大的,但至关重要的是仔细评估他们对每个领域的适用性,并适当地设计特定的模型以确保最佳性能。然而,在推荐领域中,KANs对MLPs的潜力还未被探索,这也是本文研究的动机。
基于此,本文介绍了一种全新的协同过滤方法CF-KAN,其充分利用了KANs的可区分特性来进行推荐中的协同过滤。本文研究的主要目标是发现和分析KANs对推荐系统的潜力。这不仅涉及评估整体性能,还涉及评估CF-KAN在各种角度的有效性,包括1)模型随着时间的推移渐进学习的动态环境,这在现实的推荐场景中是可行的,以及2)模型可解释性。CF-KAN构建在基于KAN的自编码器架构上(模型结构如下图所示),旨在捕获复杂的协同信号,并有效保留来自用户-项目交互实例的信息,从而在静态和动态环境下获得优越的推荐性能。
具体来说,KANs在边上学习导致局部参数更新,使基于KAN的架构适合于对推荐环境中固有的稀疏用户-项目交互进行建模。尽管CF-KAN比较简单,但大量实验表明,CF-KAN在推荐精度方面始终优于当前最先进的方法。实验验证了CF-KAN对灾难性遗忘的适应性和可解释性。此外,由于基于自编码器的简单设计原理,CF-KAN在保持优越精度的同时实现了更快的训练时间相比于双塔模型相比,如MF-BPR和LightGCN,后者采用单独的用户查询和项目编码器,需要对所有现有的用户-项目交互进行过度的成对优化。下图展示了CF-KAN相对于最先进方法的这些优势。可以看出其实现了更少的训练时间且更高的推荐精度。
最后,本文通过在Movielens, Yelp和Anime上广泛的实验表明了CF-KAN在推荐精度方面优于最先进的方法,并且CF-KAN对灾难性遗忘的恢复能力,强调了其在静态和动态推荐场景中的有效性。
更多技术细节请阅读原始论文。
欢迎干货投稿 \ 论文宣传 \ 合作交流
推荐阅读
由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。
由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。