ICML 2024 | 维度坍塌视角下的大规模推荐系统

创业 2024-08-16 08:22 北京

在推荐系统中，模型的参数量被特征嵌入(Embedding)表征主导。所以，要将整个推荐模型做大，需要增加特征嵌入表征的参数量。我们发现，业界主流的显式特征交叉结构会使特征嵌入表征产生维度坍塌，导致无法通过简单地拉长嵌入表征来提升模型效果。
针对该挑战，我们提出了一种多嵌入(Multi-Embedding)范式，为每个特征学习多个嵌入表征，并且基于每套嵌入表征学习独立的显式交叉专家网络。通过增加每个特征嵌入表征的个数而不是拉长单个嵌入表征的长度，我们在特征交叉推荐模型达成了Scaling Law：整个推荐模型的参数量越大，效果越好。该框架适用于所有的主流推荐模型结构，包括DCN V2, NFwFM, IPNN, xDeepFM和DNN等。该项工作已经被机器学习顶级会议ICML 2024录用，欢迎阅读交流。

论文题目：
On the Embedding Collapse when Scaling up Recommendation Models
论文链接：
https://arxiv.org/abs/2310.04400

一、研究问题：推荐模型的可扩展性

随着大数据时代的到来，推荐系统在广告、电商、社交媒体、新闻推送和音乐流媒体等领域发挥着越来越重要的作用。深度学习驱动的推荐模型通过挖掘用户和物品之间的复杂关系，为用户带来个性化的推荐体验。然而，尽管通用大模型的参数规模不断扩大，主流推荐模型的规模却停滞不前，这限制了推荐系统效果的进一步提升。接下来，我们将从“嵌入维度坍塌”的视角来解释该现象。

1.1 嵌入维度坍塌现象

嵌入维度坍塌(Dimensional Collapse)指的是，在一个高维空间中，推荐模型的很多特征的嵌入表征只支撑起一个低维的子空间。这会导致模型无法充分利用高维空间提供的超大参数容量，从而限制了模型的可扩展性。所以在做推荐大模型时，如果我们简单地将每个特征的嵌入表征的长度拉长，虽然模型的参数量会线性增大，但是由于大部分特征的有效维度很小，导致模型效果提升幅度不大，甚至有所下降(如左下图所示)。为了验证维度坍塌的存在，我们基于奇异值分解对模型学习到的嵌入矩阵进行谱分析 (Singular Spectrual Analysis)，并发现大多数嵌入矩阵的奇异值衰减很快(如右下图所示)，即大多数特征的嵌入矩阵是低秩的。

图1：单嵌入模型的扩展效果(左)以及其在不同的嵌入维度(4倍、10倍)下的维度坍塌情况(右)。

1.2 交叉坍塌定律

我们接下来深入分析了维度坍塌的原因。首先，我们提出了“信息丰度(Information Abundance, IA)”指标来衡量某个特征embedding的坍塌程度。具体地，IA定义为表征矩阵的奇异值总和除以奇异值最大值。该指标衡量了奇异值的分布均匀性：该值越大，说明奇异值分布越均匀，维度坍塌程度越小。相反，则说明奇异值分布不均匀，很多维度发生了严重的坍塌。

图2：DCN V2中每个特征域变换后的嵌入的维度坍塌情况

不失一般性地，我们以DCN V2为例进行维度坍塌的分析。DCNv2的每个特征都有多个不同的变换嵌入表征(projected embedding)，其中每个嵌入表征对应一个特征域(Field)。具体地，我们分析了DCN V2模型下，某个特征域 i 的特征嵌入在与特征域 j 交互时的变换嵌入表征的信息丰度值(上图(a))；以及给定特征域 i (或 j )后，所有由特征域 i 变换出的嵌入表征以及所有变换到特征域 j 的嵌入表征的信息丰度均值。

我们可以清楚地看到，变换嵌入表征的信息丰度不仅取决于源特征域 i (上图(b))，还明显地受到其与之进行交叉的目标特征域 j 的影响(上图(c))。基于这些观察，我们提出了“交叉坍塌定律”，亦即，在推荐系统的特征交叉中，信息丰度低的特征与信息丰度高的特征交叉后，会导致后者的嵌入表征发生维度坍塌。针对该交叉坍塌定律，我们也提供了理论证明，细节请阅读原论文第4章节。

1.3 如何缓解坍塌

图3：变换矩阵做正则后的维度坍塌情况(a)和模型效果(b, c)

上面章节已经论证了显式的特征交叉会导致embedding发生维度坍塌。我们接下来讨论几种缓解维度坍塌的尝试。首先，我们发现在DCN V2中每个特征域的embedding在变换后发生了维度坍塌。我们试图去对变换矩阵做一些限制，使其接近单位矩阵，以避免变换矩阵导致的维度坍塌。具体地，我们在模型的损失函数中增加了一个正则损失，使得变换矩阵近似于单位矩阵。但是，我们发现，虽然所有特征embedding的维度坍塌得到了很大程度的缓解(图3(a))，但是模型发生了严重的过拟合，亦即训练时的损失函数大幅降低(图3(c))，但是测试的AUC也显著地变差(图3(b))。

图4：DNN与DCN V2的维度坍塌(a)以及模型扩展效果对比(b)

于是，我们又尝试了一种更激进的方法：直接将模型里的显式特征交叉模块替换为隐式交叉，亦即对embedding做拼接后接入MLP，也就是把DCN V2替换为Concat & MLP。我们同样发现embedding的维度坍塌得到了一定程度缓解(图4(a))，但是该模型同样无法有效的进行参数扩展，亦即模型的效果随着参数量变大而显著恶化(图4(b))。

二、我们的方法：多嵌入范式

嵌入维度坍塌会使得某些特征的实际有效维度远低于其设置的嵌入表征长度，所以进一步的拉长这些特征的嵌入表征长度不太可能带来效果提升，这就使得通过拉长特征嵌入表征维度来扩展(scale up)推荐模型不可行。针对该挑战，我们提出了多嵌入范式 (Multi-Embedding Paradigm)，为所有的特征ID学习多套嵌入表征，并且基于每套嵌入表征学习独立的专家网络，最后基于混合专家网络(MoE结构)输出最终预估值。整体结构见下图所示：

图5：多嵌入范式架构图

三、实验验证

我们在Criteo和Avazu两个公开CTR数据集上，基于所有的业界主流模型如DNN、IPNN、NFwFM、xDeepFM、 DCN V2、 FinalMLP等，对比了这些模型在单嵌入范式(Single-Embedding Paradigm)和多嵌入范式(Multi-Embedding Paradigm)的效果。在相同参数量的情况下，多嵌入模型的效果都要优于单嵌入模型。并且，单嵌入范式下，多数模型的效果随参数量增大会恶化；而在多嵌入范式下，所有模型的效果都会随着参数量增大而变好，亦即达成了推荐模型的扩展。

表1：在Criteo和Avazu公开数据集上的效果对比

图6：主流模型在单嵌入和多嵌入范式下的scaling-up效果(Criteo数据集)

同时，我们在腾讯广告多个场景的点击率预估场景上线了该范式，取得了显著的营收提升。具体来说，我们学习了多个不同的特征交互专家网络，例如GwPFM [2]、IPNN [3]、DCN V2 [4], NFwFM[5] 和FlatDNN，以及多个嵌入表。一个或多个专家网络共享这些嵌入表。我们将这种架构命名为基于多嵌入的混合异构专家网络。朋友圈pCTR模型用到了GwPFM、IPNN和FlatDNN，以及两个嵌入表。其中，GwPFM和FlatDNN共享第一个嵌入表，而IPNN使用第二个嵌入表。从单一嵌入范式转换到上述基于多嵌入的混合异构专家网络，在朋友圈pCTR带来了3.9%的GMV提升。线上的基于该范式的模型结构如下图所示：

图7：线上Multi-Embedding范式结构图

我们进一步地分析了单嵌入范式与多嵌入范式下DCN V2模型的变换后embedding维度坍塌情况(图8)，我们可以明显的看到在多嵌入范式下特征域的整体维度坍塌得到了很大缓解，亦即所有变换到特征域j的变换嵌入的信息丰度与特征域j本身嵌入的信息丰度的相关性变弱。

图8：单嵌入(左)和多嵌入范式(右)下特征域的变换后embedding的维度坍塌情况

我们还去分析了多嵌入范式学到的多套嵌入空间之间的多样性。具体地，我们选用principal angle来衡量两个嵌入空间的相似度，并且验证了多嵌入范式的确可以学到比单嵌入范式更加多样的嵌入空间(图9(a))。我们还去可视化了不同套嵌入对应的专家网络的变换矩阵，发现不同专家网络捕获了不同的特征域交叉规律(图9(b))。

图9：单嵌入和多嵌入范式下的嵌入空间的多样性对比(a)，以及多嵌入范式下不同变换矩阵W的可视化(b)。

四、结论

本文深入研究了推荐系统模型在规模化过程中遇到的嵌入维度坍塌问题，并提出了一种创新的多嵌入设计来提高模型的可扩展性。通过在两个大型基准数据集上的实验，验证了多嵌入设计在减少嵌入坍塌和提升模型效果方面的有效性。腾讯广告技术团队已经将此技术应用于腾讯广告新广告投放（3.0）当中，达成推荐模型的Scaling Law，助力广告主的竞价投放。这项工作不仅为推荐系统领域提供了新的视角，也为深度学习模型的设计提供了宝贵的启示。随着人工智能技术的不断进步，多嵌入设计有望在更多的应用场景中发挥其潜力，推动推荐系统乃至整个深度学习领域的发展。

参考文献

1.On the Embedding Collapse when Scaling up Recommendation Models. ICML 2024.【腾讯广告技术团队】

2.Ads Recommendation in a Collapsed and Entangled World. KDD 2024. 【腾讯广告技术团队】

3.Product-based neural networks for user response prediction. CIKM, 2016.

4.DCN-V2: Improved deep & cross network and practical lessons for web-scale learning to rank systems. WWW 2021.

5.Field-weighted Factorization Machines for Click-through Rate Prediction in Display Advertising. WWW 2018.

来源：公众号【腾讯广告技术】

llustration From IconScout By Delesign Graphic

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513194&idx=2&sn=706ba702d02ef4308c0cc8779781c0a2

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉