ICML 2024 | 维度坍塌视角下的大规模推荐系统

创业   2024-08-16 08:22   北京  

在推荐系统中,模型的参数量被特征嵌入(Embedding)表征主导。所以,要将整个推荐模型做大,需要增加特征嵌入表征的参数量。我们发现,业界主流的显式特征交叉结构会使特征嵌入表征产生维度坍塌,导致无法通过简单地拉长嵌入表征来提升模型效果。
针对该挑战,我们提出了一种多嵌入(Multi-Embedding)范式,为每个特征学习多个嵌入表征,并且基于每套嵌入表征学习独立的显式交叉专家网络。通过增加每个特征嵌入表征的个数而不是拉长单个嵌入表征的长度,我们在特征交叉推荐模型达成了Scaling Law:整个推荐模型的参数量越大,效果越好。该框架适用于所有的主流推荐模型结构,包括DCN V2, NFwFM, IPNN, xDeepFM和DNN等。该项工作已经被机器学习顶级会议ICML 2024录用,欢迎阅读交流。

论文题目:

On the Embedding Collapse when Scaling up Recommendation Models 

论文链接:

https://arxiv.org/abs/2310.04400

一、研究问题:推荐模型的可扩展性

随着大数据时代的到来,推荐系统在广告、电商、社交媒体、新闻推送和音乐流媒体等领域发挥着越来越重要的作用。深度学习驱动的推荐模型通过挖掘用户和物品之间的复杂关系,为用户带来个性化的推荐体验。然而,尽管通用大模型的参数规模不断扩大,主流推荐模型的规模却停滞不前,这限制了推荐系统效果的进一步提升。接下来,我们将从“入维度坍塌”的视角来解释该现象。

1.1 嵌入维度坍塌现象

嵌入维度坍塌(Dimensional Collapse)指的是,在一个高维空间中,推荐模型的很多特征的嵌入表征只支撑起一个低维的子空间。这会导致模型无法充分利用高维空间提供的超大参数容量,从而限制了模型的可扩展性。所以在做推荐大模型时,如果我们简单地将每个特征的嵌入表征的长度拉长,虽然模型的参数量会线性增大,但是由于大部分特征的有效维度很小,导致模型效果提升幅度不大,甚至有所下降(如左下图所示)。为了验证维度坍塌的存在,我们基于奇异值分解对模型学习到的嵌入矩阵进行谱分析 (Singular Spectrual Analysis),并发现大多数嵌入矩阵的奇异值衰减很快(如右下图所示),即大多数特征的嵌入矩阵是低秩的

图1:单嵌入模型的扩展效果(左)以及其在不同的嵌入维度(4倍、10倍)下的维度坍塌情况(右)。

1.2  交叉坍塌定律

我们接下来深入分析了维度坍塌的原因。首先,我们提出了“信息丰度(Information Abundance, IA)”指标来衡量某个特征embedding的坍塌程度。具体地,IA定义为表征矩阵的奇异值总和除以奇异值最大值。该指标衡量了奇异值的分布均匀性:该值越大,说明奇异值分布越均匀,维度坍塌程度越小。相反,则说明奇异值分布不均匀,很多维度发生了严重的坍塌。

图2:DCN V2中每个特征域变换后的嵌入的维度坍塌情况

不失一般性地,我们以DCN V2为例进行维度坍塌的分析。DCNv2的每个特征都有多个不同的变换嵌入表征(projected embedding),其中每个嵌入表征对应一个特征域(Field)。具体地,我们分析了DCN V2模型下,某个特征域 i 的特征嵌入在与特征域 j 交互时的变换嵌入表征的信息丰度值(上图(a));以及给定特征域 i (或 j )后,所有由特征域 i 变换出的嵌入表征以及所有变换到特征域 j 的嵌入表征的信息丰度均值。

我们可以清楚地看到,变换嵌入表征的信息丰度不仅取决于源特征域 i (上图(b)),还明显地受到其与之进行交叉的目标特征域 j 的影响(上图(c))。基于这些观察,我们提出了“交叉坍塌定律”,亦即,在推荐系统的特征交叉中,信息丰度低的特征与信息丰度高的特征交叉后,会导致后者的嵌入表征发生维度坍塌。针对该交叉坍塌定律,我们也提供了理论证明,细节请阅读原论文第4章节。

1.3 如何缓解坍塌

图3:变换矩阵做正则后的维度坍塌情况(a)和模型效果(b, c)
上面章节已经论证了显式的特征交叉会导致embedding发生维度坍塌。我们接下来讨论几种缓解维度坍塌的尝试。首先,我们发现在DCN V2中每个特征域的embedding在变换后发生了维度坍塌。我们试图去对变换矩阵做一些限制,使其接近单位矩阵,以避免变换矩阵导致的维度坍塌。具体地,我们在模型的损失函数中增加了一个正则损失,使得变换矩阵近似于单位矩阵。但是,我们发现,虽然所有特征embedding的维度坍塌得到了很大程度的缓解(图3(a)),但是模型发生了严重的过拟合,亦即训练时的损失函数大幅降低(图3(c)),但是测试的AUC也显著地变差(图3(b))。

图4:DNN与DCN V2的维度坍塌(a)以及模型扩展效果对比(b)
于是,我们又尝试了一种更激进的方法:直接将模型里的显式特征交叉模块替换为隐式交叉,亦即对embedding做拼接后接入MLP,也就是把DCN V2替换为Concat & MLP。我们同样发现embedding的维度坍塌得到了一定程度缓解(图4(a)),但是该模型同样无法有效的进行参数扩展,亦即模型的效果随着参数量变大而显著恶化(图4(b))。

二、我们的方法:多嵌入范式

嵌入维度坍塌会使得某些特征的实际有效维度远低于其设置的嵌入表征长度,所以进一步的拉长这些特征的嵌入表征长度不太可能带来效果提升,这就使得通过拉长特征嵌入表征维度来扩展(scale up)推荐模型不可行。针对该挑战,我们提出了多嵌入范式 (Multi-Embedding Paradigm),为所有的特征ID学习多套嵌入表征,并且基于每套嵌入表征学习独立的专家网络,最后基于混合专家网络(MoE结构)输出最终预估值。整体结构见下图所示:

图5:多嵌入范式架构图

三、实验验证

我们在Criteo和Avazu两个公开CTR数据集上,基于所有的业界主流模型如DNN、IPNN、NFwFM、xDeepFM、 DCN V2、 FinalMLP等,对比了这些模型在单嵌入范式(Single-Embedding Paradigm)和多嵌入范式(Multi-Embedding Paradigm)的效果。在相同参数量的情况下,多嵌入模型的效果都要优于单嵌入模型。并且,单嵌入范式下,多数模型的效果随参数量增大会恶化;而在多嵌入范式下,所有模型的效果都会随着参数量增大而变好,亦即达成了推荐模型的扩展

表1:在Criteo和Avazu公开数据集上的效果对比

图6:主流模型在单嵌入和多嵌入范式下的scaling-up效果(Criteo数据集)
同时,我们在腾讯广告多个场景的点击率预估场景上线了该范式,取得了显著的营收提升。具体来说,我们学习了多个不同的特征交互专家网络,例如GwPFM [2]、IPNN [3]、DCN V2 [4], NFwFM[5] 和FlatDNN,以及多个嵌入表。一个或多个专家网络共享这些嵌入表。我们将这种架构命名为基于多嵌入的混合异构专家网络。朋友圈pCTR模型用到了GwPFM、IPNN和FlatDNN,以及两个嵌入表。其中,GwPFM和FlatDNN共享第一个嵌入表,而IPNN使用第二个嵌入表。从单一嵌入范式转换到上述基于多嵌入的混合异构专家网络,在朋友圈pCTR带来了3.9%的GMV提升。线上的基于该范式的模型结构如下图所示:

图7:线上Multi-Embedding范式结构图
我们进一步地分析了单嵌入范式与多嵌入范式下DCN V2模型的变换后embedding维度坍塌情况(图8),我们可以明显的看到在多嵌入范式下特征域的整体维度坍塌得到了很大缓解,亦即所有变换到特征域j的变换嵌入的信息丰度与特征域j本身嵌入的信息丰度的相关性变弱。

图8:单嵌入(左)和多嵌入范式(右)下特征域的变换后embedding的维度坍塌情况
我们还去分析了多嵌入范式学到的多套嵌入空间之间的多样性。具体地,我们选用principal angle来衡量两个嵌入空间的相似度,并且验证了多嵌入范式的确可以学到比单嵌入范式更加多样的嵌入空间(图9(a))。我们还去可视化了不同套嵌入对应的专家网络的变换矩阵,发现不同专家网络捕获了不同的特征域交叉规律(图9(b))。

图9:单嵌入和多嵌入范式下的嵌入空间的多样性对比(a),以及多嵌入范式下不同变换矩阵W的可视化(b)。

四、结论

本文深入研究了推荐系统模型在规模化过程中遇到的嵌入维度坍塌问题,并提出了一种创新的多嵌入设计来提高模型的可扩展性。通过在两个大型基准数据集上的实验,验证了多嵌入设计在减少嵌入坍塌和提升模型效果方面的有效性。腾讯广告技术团队已经将此技术应用于腾讯广告新广告投放(3.0)当中,达成推荐模型的Scaling Law,助力广告主的竞价投放。这项工作不仅为推荐系统领域提供了新的视角,也为深度学习模型的设计提供了宝贵的启示。随着人工智能技术的不断进步,多嵌入设计有望在更多的应用场景中发挥其潜力,推动推荐系统乃至整个深度学习领域的发展。

参考文献

1.On the Embedding Collapse when Scaling up Recommendation Models. ICML 2024.【腾讯广告技术团队】

2.Ads Recommendation in a Collapsed and Entangled World. KDD 2024. 【腾讯广告技术团队】

3.Product-based neural networks for user response prediction. CIKM, 2016.

4.DCN-V2: Improved deep & cross network and practical lessons for web-scale learning to rank systems. WWW 2021.

5.Field-weighted Factorization Machines for Click-through Rate Prediction in Display Advertising. WWW 2018.

来源:公众号【腾讯广告技术】

llustration From IconScout By Delesign Graphic

-The End-

扫码观看

本周上新!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com

    


点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文

将门创投
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器,由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
 最新文章