与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

科技 2024-12-16 14:07 北京

机器之心报道

编辑：杜伟、小舟

这几天，学术圈的小伙伴肯定都很关注正在加拿大温哥华举办的机器学习顶会——NeurIPS 2024。本届会议于今日落下帷幕，共接收 15671 篇有效论文投稿，比去年增长了 27%，最终接收率为 25.8%。

本届会议上同样值得关注的，还有一项重要的赛事，它就是「NeurIPS 2024 Auto-Bidding in Large-Scale Auctions」（大规模拍卖中的自动出价），旨在探索当前火热的强化学习、生成模型、Agent 等前沿 AI 技术在广告投放以及决策智能场景的应用。

该赛事不仅是业内首次广告出价比赛，也是 NeurIPS 2024 唯一的搜广推比赛，可以说规格和含金量都很高，也因此收获了超高的热度，吸引超过 1500 支队伍参赛，其中不乏国内外知名高校和公司、专业研究机构以及决策智能领域知名团队的身影。

赛事主页：https://tianchi.aliyun.com/specials/promotion/neurips2024_alimama#/

简单来说，在比赛中，参赛者扮演自动出价 Agent（即广告主），在大规模拍卖环境下与其他 47 个竞争对手对抗，作出有效的出价决策，并在满足投放需求的情况下帮助广告主最大化投放效果。

从①到⑤为典型广告平台的自动出价全流程。

此次比赛分为了两个赛道，分别是通用赛道和 AIGB（AI-Generated Bidding）赛道。两个赛道侧重点各有不同，对参赛队伍提出了不同的技术要求，其中：

通用赛道关注不确定环境中的自动出价，需要解决数据稀疏性、转化方差、多坑等不确定问题；
AIGB 赛道使用生成模型来学习自动出价 Agent，需要采用生成模型来端到端输出决策。

算起来，自今年 6 月底注册阶段开始，经过了近半年的激烈角逐，比赛终于决出了胜负！

快手商业化算法团队（简称快手团队）从千余支队伍中脱颖而出，包揽了两个赛道的第一名，成为本次赛事最大赢家。

夺冠方案

自动出价服务是国内外各广告平台的基础组成模块，有众多的业界实践和研究工作。

此次比赛任务基于一个简化版本的 Target CPA，并将 CPA 定义为平均转化成本。参赛者需要设计和实现一个自动出价 Agent。给定广告主 j 的预算 B 和目标 CPA C，该自动出价 Agent 在一个广告投放周期内对 N 个展现机会进行竞价，目标是在保证最终实现的 CPA 不大于 C 的前提下，最大化总转化量。

具体来说，所有展现机会按顺序到达，出价 Agent 依次对每个机会进行竞价。对于每个机会 i：

出价：自动出价 Agent 出价，同时其他竞争广告主利用他们的单独的出价 Agent 出价，来竞争 3 个广告坑位。其中，出价会依赖转化概率值，定义为广告主 j 的广告曝光给用户时的转化动作概率，定位为预估的标准差。

拍卖：广告平台运行 GSP（Generalized Second Price）拍卖机制，按照出价从高到低依次分配 3 个到坑位上，获胜者按照下一位出价进行扣费。拍卖结果会返回给出价 Agent，其中表示是否获胜，表示赢得的广告坑位，表示需要支付的费用。不仅取决于还取决于。

展现：广告坑位是否曝光给用户由随机变量决定，其中是广告坑位的曝光概率。实际是否发生转化也是一个随机变量，定义为，其中，为预估标准差。如果广告坑位未曝光，广告主无需支付费用，转化也不会发生。因此，这个任务可以形式化如下：

最终实现的 CPA 定义为：

自动出价 Agent 的目标是在满足广告主设定的 CPA 约束情况下最大化转化量。具体的评估指标定义如下：

其中，对应优化目标最大化转化，在超成本即实际 CPA > C 时，P (CPA; C) < 1，会对转化进行降权。

总体来说，这项比赛不仅可以促进决策技术的突破，而且还将给行业应用场景带来启发。我们来看下快手是如何在通用和 AIGB 两个赛道拔得头筹的。

通用赛道

现实世界中，复杂的广告拍卖环境往往会带来额外的挑战，特别是不确定性。因此，通用赛道要求参赛者在大规模拍卖中做出有效竞价决策，需要有效感知竞争对手策略的变化。参赛者必须考虑客户到达的随机性、转化预测的方差、数据稀疏性和其他因素。

这就需要在离线规划最优解的基础上，自适应在线竞价过程，以获得更优出价序列。快手团队创新地提出了一种基于强化学习的在线探索技术方案，巧妙地解决了该问题。

首先，考虑多坑特点，快手团队基于竞胜率以及多坑的曝光率将问题建模成约束优化问题，并基于该问题的对偶问题求解出离线最优出价系数，得到最优出价形式。

然后，快手团队建模出价系数和未来预期消耗以及预期转化的关系，并且为了解决不确定性问题，在建模时综合考虑了稠密的先验转化以及稀疏的后验转化。

最后，为了适应在线环境的不确定性，快手团队提出基于强化学习的在线搜索方案：首先搭建一个竞价模拟器环境，能够学习不同出价对应的序列长期价值；然后基于离线最优出价系数划定一个区间进行采样，最后挑选出价值最优的动作（action）作为最终的出价系数。

结合最优化理论和强化学习在线搜索。

AIGB 赛道

相比于通用赛道，AIGB 赛道面向一种全新的迭代范式。由于生成模型，包括扩散模型（Diffusion Model）、决策 Transformer（Decision Transformer）、大型语言模型（LLM），在语言、视觉等领域体现出算力和数据的 scaling law，并且在决策任务中表现出了巨大的潜力，因此 AIGB 赛道要求采用生成模型，将自动出价建模为生成式序列决策问题，探索生成模型用于出价问题的机会。

在 AIGB 赛道，一个首先要解决的问题是选择模型架构。序列决策领域有扩散模型和决策 Transformer 两大类。参赛者面临在竞争性游戏中做出长期战略决策的关键挑战，众多竞争对手的策略会快速发生变化，以 DiffBid 为代表的扩散模型方案存在两个不足：

优化目标对齐能力弱：一次性生成一条序列，序列之间约束较弱，甚至学不出剩余预算单调递减这一性质；
训练效率低：是两阶段范式，首先预测状态序列 {s_{t+1},s_{t+2},...,s_{T}}，然后根据 {s_t,s_{t+1}} 预测最终出价，训练较为复杂。

而决策 Transformer 建模长期价值 return to go（RTG），直接预测出价，相比于 DiffBid 具有和目标对齐能力更强、训练更简单的优势。

然而，快手团队发现：决策 Transformer 模型的学习机制是模仿学习，难以学习到超出数据集的出价策略。因此，他们考虑在策略学习时探索更优的出价系数，增强模型学习，但简单的探索很容易导致离线强化学习的分布外（Out Of Distribution，OOD）问题。

为了解决这个问题，快手团队从决策 Transformer 的本质出发，即决策 Transformer 根据 RTG 生成对应的出价系数，下一时刻的高 RTG 出价系数（长期价值）需要有更大的生成概率。

有了这个关键认知，快手团队提出一种 RTG 引导的出价系数探索方案——Decision Transformer with RTG-driven Explorations，保证探索性的同时兼顾安全性，从而增强模型学习。

Decision Transformer with RTG-driven Explorations

简单来说，Decision Transformer with RTG-driven Explorations 方案主要包括如下步骤：

首先训练模型预估下一时刻的 RTG，具备评估探索的出价系数好坏的能力。
每个 timestep 额外预测一个基于原始出价系数探索新的出价系数，鼓励模型探索下一时刻 RTG 更高的出价系数。
模型朝着原始出价系数和探索到的出价系数中更优的出价系数更新，避免 OOD 问题。

广告收入提升 5%+

基于 RL 的自动出价在业务侧开始发力

说起来，广告投放的目的其实很简单，以企业或商家为主的广告主选择合适的广告平台，将广告传递给受众（即消费者）。但实现起来需要考虑的因素就多了，比如针对同一广告位展开竞争出价、投放预算与实际投放成本、投放收益等。这就要求广告主进行全方位权衡，其中动态调整出价是控制广告成本和提升广告收入的关键一环。

而作为广告投放平台，快手也在广告推荐、预算分配策略、效果预估以及尤为重要的自动出价调整等层面进行算法上的优化升级，更好地服务于客户的同时增加自身广告收入。

从纵向来看，快手的出价算法经历了从 PID、MPC 到强化学习（RL）的「三代」演化路径，技术上的持续迭代更新带来了广告投放效果的节节提升。

第一代出价算法 PID（被动反馈式控制）包含了三个关键的控制参数：比例（Proportional）、积分（Integral）和微分（Derivative）。该算法可以通过动态调整出价来很好地将广告平均成交价稳定在目标成交价，但不足的点在于对未来消耗和预期消耗没有预估和规划。

第二代出价算法 MPC，它的全称为 Model Predictive Control，引入了对未来的预测，在对出价与未来消耗、成本的关系进行建模的基础上可以做出更精准的出价规划。不过，该算法建模能力较弱，也无法做出多步长期决策。

到了强化学习阶段，包括出价、成本、用户行为在内各个变量的建模能力大大加强，并对序列整体长期价值进行优化。通过不断与环境互动，强化学习算法可以根据实时市场环境变化调整出价，并能够预估长期广告效果以做出更精确的出价决策。相较于 PID、MPC，强化学习算法在动态决策、处理复杂环境与竞争行为、多目标优化、应对不确定性与数据稀缺、长期收益优化等多个方面都占优。

此外，面对 OOD 问题，快手在算法选型上采用了离线强化学习算法，缓解了训练数据集不足带来的问题，可以更稳健地进行决策，降低策略失效的风险；快手又搭建离线模拟环境，优化出价策略并验证效果，确保在线策略的安全性、有效性和稳健性，降低高风险决策可能造成的损失。

目前，基于强化学习的自动出价模型已经在快手广告系统全量推全，在成本达标不降约束下取得了 5% 以上的广告收入提升。消融实验也证明了：收益来自于模型泛化以及强化学习最大化序列价值建模。

通过此次大赛，快手看到生成模型（如 Decision Transformer）在广告出价场景中的应用潜力。虽然相较于强化学习在最大化序列整体价值方面存在短板，但对序列数据的拟合能力更强，因此二者的有效结合可能是下一代更强出价模型的演化方向。同时，快手也畅想借鉴 o1 思想，通过 Monte-Carlo Tree Search（MCTS）技术搜索不同出价序列，挑选出最优路径，在多轮决策和推理过程中优化出价策略。

夺冠背后

是 AI 技术的厚积薄发

此次 NeurIPS 2024 大赛，真正诠释了快手商业化算法团队的 AI 技术积累以及在实际业务中经受考验的信心。

从确定参赛、前期准备，到练习轮（Practice Round）、再到正式比赛（Official Round），参赛成员在几个月的时间里，攻克了不少的难关，这才有了最终的双赛道夺冠。

参赛成员来自清华大学、香港中文大学、香港城市大学、南洋理工大学等国内外名校。在谈到此次最大的收获时，他们表示对几类出价算法（包括最优化理论、强化学习和生成模型）的优劣有了定性和定量的分析，并对未来出价技术的演进做出清晰的判断。而且，此次比赛提出的创新点在快手的广告业务中也得到了初步验证。

据了解，作为快手核心算法部门，商业化算法团队负责快手国内及海外多场景的变现算法研发，着力构建领先的广告变现算法，通过算法驱动商业营销增长，优化用户和客户体验。团队依托快手实际业务问题，产出顶会论文覆盖 KDD、ICLR、NeurIPS、CVPR 等多个领域的国际会议，还先后斩获 CIKM Best Paper、SIGIR Best Paper 提名奖、钱伟长中文信息处理科学技术奖一等奖。在 AI 技术层面的硬实力，是他们此次夺冠的最大底气。

作为一家以人工智能为核心驱动和技术依托的科技公司，快手已经看到了以技术为引擎、辅以算法在推动业绩增长方面的巨大价值。

未来，快手将继续探索强化学习、生成模型等 AI 技术在广告出价以及更广泛业务场景的落地。届时又会带来哪些惊喜，我们拭目以待。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉