腾讯KDD‘24公开最新广告推荐系统建模方案

文摘 2024-09-29 23:45 上海

↑↑↑关注后"星标"kaggle竞赛宝典
kaggle竞赛宝典
作者：Fareise
腾讯KDD‘24公开最新广告推荐系统建模方案

腾讯在KDD2024中发表了一篇广告推荐系统的工作，详细介绍了腾讯构建的新一代推荐系统模型，从Embedding构建、模型结构、优化方式等多个方面都进行了细致优化。今天这篇文章给大家介绍一下腾讯的这篇工作。

论文标题：Ads Recommendation in a Collapsed and Entangled World

下载地址：https://arxiv.org/pdf/2403.00793

整体介绍

本文介绍了腾讯的广告推荐系统模型结构。整体的模型结构如下图所示，核心包括以下几个方面。

基础Embedding：包括序列特征、数值特征、ID特征，各类特征有相应的处理方法；

多Embedding多Expert融合：每个特征使用多个Embedding，并使用多个Expert进行建模，实现模型Ensemble，缓解Embedding维度坍缩问题；

多任务多场景的兴趣解耦：提出两种建模方法，解决多任务或多场景建模中，用户兴趣的耦合对模型造成的负向影响；

优化技巧：进行样本加权、引入rank loss等模型训练优化方法。

基础Embedding

推荐系统模型的Embedding可以分为4种类型：行为序列建模Embedding、数值型Embedding、ID类Embedding，以及从外部数据预训练的Embedding。

对于行为序列建模，文中采用了之前腾讯提出的Temporal Interest Module结构（论文Temporal Interest Network for Click-Through Rate Prediction），在用户历史行为序列建模中引入时间维度信息，并且和目标商品信息进行充分交叉。这篇文章的详细解析也在星球中更新过，感兴趣的同学可以进一步查看。

对于数值类型特征，由于其存在大小关系，文中提出了Multiple Numeral Systems Encoding (MNSE)的Embedding生成思路。其核心是将数值转换成不同进制的表示，再将这个表示转换成Embedding。比如将51这个数，可以转换成二进制111011，进一步可以转换成【6_1, 5_1, 4_0, 3_0, 2_1, 1_1】这6个Embedding。同时也可以将51转换成3进制、4进制等各种类型的表示，并转换成相应Embedding。

对于外部数据预训练的Embedding，例如使用User-Item构建的Graph训练的Embedding，文中使用user和item侧Embedding的相似度打分作为模型输入，并对这个相似度打分使用上述MNSE的方式构建数值Embedding输入模型。

多Embedding多Expert融合

本文进一步探索了Embedding中的维度坍缩问题。这里的维度坍缩问题指的是，对于一个K维的Embedding，模型只能有效利用其中较少量的维度，Embedding分布在一个很小的空间，进而无法有效利用Embedding信息。

文中提出，造成这个问题的核心原因是模型中的特征交叉模块。有一些特征，由于其取值较少，本来就用不了K维的Embedding，比如性别这个特征。而这个特征在和其他特征做交叉后，就会把其他特征也带向坍缩。

为了解决这个问题，文中提出将一个特征的Embedding拆成多份，每份内部分别做特征交叉，并过单独的Expert模型。进一步的，采用不同类型的特征交叉方式，实现了一种多Embedding、多类型特征交叉、多Expert融合的建模方法。

在特征交叉部分，为了避免直接计算两个Embedding内积出现的维度坍缩问题，文中借鉴前人的工作，先对一个特征的Embedding通过MLP映射后，再和另一个Embedding计算内积进行交叉，以此来有效缓解维度坍缩问题。

多任务多场景兴趣解耦

在多任务或者多场景建模中，不同的任务或场景下的用户兴趣是不同的，联合学习会造成互相的干扰，带来负迁移问题。为了解决上述问题，文中提出了两种建模方法，第一种方法面向多任务学习，同时关注多个目标的效果。核心在于将底层的Embedding进行不同维度的拆解，每种Embedding过一个专家模型，并通过Gate控制每个任务使用各个Embedding和专家的权重。相比传统的MoE做法，这里没有区分每个任务独立或者共享的Expert，而是直接使用独立模型+Gate的方法进行融合。

第二种方法面向单任务学习，这里只关注一个目标任务的效果，其他任务作为辅助任务，目的是提升目标任务的效果。这里采用了辅助Expert的方法，用一个辅助Expert学习辅助目标，并将辅助塔的表征作为主塔的输入，以提升主塔的预测效果。

优化技巧

在模型优化方法上，文中也提出了一些优化技巧。

首先是梯度消失问题，在腾讯的广告场景中，点击率很低，正样本很少，导致梯度跟小。文中指出，引入ranking loss和binary cross entropy进行联合训练，可以显著增大梯度，提升模型的收敛性。

其次，如果一个样本重复曝光，会带来用户体验的下降。为了缓解这个问题，文中对重复曝光的负样本进行加权，让模型减少重复曝光，且用户不感兴趣样本的打分。这样做之后，会改变样本打分的整体分布，因此文中对正样本进行纠偏加权缓解该问题。

此外，文中也进行了包括不确定度建模、在线学习、分析工具等一系列的优化和链路建设。

END

如果觉得有帮助麻烦分享在看点赞~

http://mp.weixin.qq.com/s?__biz=Mzk0NDE5Nzg1Ng==&mid=2247512178&idx=2&sn=a274bb624e2ca2211153e7df3809388b

kaggle竞赛宝典

数据竞赛Top方案，竞赛黑科技，竞赛到入职的一些感想。

最新文章

利用图形、数学和 Python 揭示时间序列数据中的隐藏模式。

竞赛实践中10种数据预处理中的数据泄露模式解析

LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势

RAG+LLM: 关于知识问答的雕花分享

天池蚂蚁AFAC大模型挑战赛-冠军方案(含代码)

NIPS 2024时间序列工作汇总。

用PyTorch从零开始编写DeepSeek-V2

时间序列问题特征提取技巧（含Python代码）

机器学习模型中特征贡献度分析：预测贡献与错误贡献

详解如何从零构建Llama 3（含代码）!

赠送43个量化特征

Kaggle所有量化竞赛汇总！（含所有Top方案）

香港中文大学（深圳）第二届神仙湖国际创新创业大赛报名正式启动！

等了这个比赛快一年了，为梦想燃起来！

Kaggle最新量化大赛来了-Jane Street实时市场预测大赛

统一时序预测模型，上下文长度首次扩展至千级别！！！

2025泰晤士世界大学排名公布！

AI智能体挑战Kaggle，o1夺7金封王！

Kaggle模型知识点：HistGradient Boosting

浅谈大模型Pretrain的关键点！

面试大厂被怼了......

AI大佬Hinton 和 Hopfield获得2024年诺贝尔物理学奖！

Kaggle竞赛被AutoML模型霸榜了...

时序预测数据处理新方法汇总！

ATEC2023：大模型的知识引入Rank7方案分享(含Code)

Kaggle快速拿奖牌的秘密。

Kaggle LLM大赛第一名方案！

全球Deepfake攻防挑战赛三等奖方案！

腾讯KDD‘24公开最新广告推荐系统建模方案

机器学习模型评价、模型与算法选择（综述）

刷新历史!"寒门学子"十年磨一剑，在机器学习技术助力下频发时间序列顶会！

字节60k急招Kaggle比赛人才

Kaggle最新比赛解析：CMI 体育损伤指数预测

时序预测中的多类型模型组合建模方案。

Kaggle 竞赛知识点：知识蒸馏的三种方法

颜值博主慌了...AI美女屠版小红书火了

统一时间序列预训练Transformer!

另类强特 -- 无监督聚类特征汇总！

Kaggle 赛题解析：Eedi 多项选择理解

2024年必须知道的网络-直接上分！

效果碾压GPT-4o，OpenAI最新大模型达到博士水平！

Kaggle 赛题解析：Eedi 多项选择理解

一个量化时序宝库模型！

新型脉冲神经网络！+大模型的综述与展望！

“东方小巴黎”召开 | 高校联合主办-征稿通知

Kaggle 知识点：知识蒸馏的三种方法

终于将Transformer原理可视化了！

16万奖金！AI4S Cup LLM 系列挑战赛探索大模型的无限可能

【比赛推荐】2024 X-GAME 新能源方向算法赛打榜正式开启

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

腾讯KDD‘24公开最新广告推荐系统建模方案

↑↑↑关注后"星标"kaggle竞赛宝典 kaggle竞赛宝典 作者：Fareise腾讯KDD‘24公开最新广告推荐系统建模方案

↑↑↑关注后"星标"kaggle竞赛宝典
kaggle竞赛宝典
作者：Fareise
腾讯KDD‘24公开最新广告推荐系统建模方案