RecSys’24：使用 EMBark 进行大规模推荐系统训练 Embedding 加速

科技 2024-10-30 17:01 北京

简介

推荐系统是互联网行业的核心系统，如何高效训练推荐系统是各公司关注的核心问题。目前，推荐系统基本上都是基于深度学习的大规模 ID 类模型，模型包含数十亿甚至数百亿级别的 ID 特征，典型结构如图 1 所示。

图 1. 典型 DLRM 模型结构图

近年来，以 NVIDIA Merlin HugeCTR 和 TorchRec 为代表的 GPU 解决方案，通过将大规模 ID 类特征的 embedding 存放在 GPU 上，并对 embedding 进行模型并行处理，将其分片到不同 GPU 上，利用 GPU 内存带宽优势，大幅加速了深度推荐系统模型的训练，相较于 CPU 方案有显著提升。

同时，随着训练集群 GPU 使用数量增加（从 8 个 GPU 增加到 128 个 GPU），我们也发现，embedding 部分通信开销占整个训练开销比例越来越大。在一些大规模训练中（比如在 16 节点上）甚至超过一半（51%）。这主要是因为两个原因：

随着集群 GPU 数量增加，每个节点上的 embedding table 数量逐渐减少，导致不同节点负载不均衡，降低训练效率。
相比机内带宽，机间带宽小得多，因此 embedding 模型并行需要进行机间通信耗时较长。

为了帮助行业用户更好地理解问题、解决问题，NVIDIA HugeCTR 团队于今年的 RecSys 大会上提出了 EMBark，通过支持 3D 的自定义 sharding 策略和结合不同的通信压缩策略，能够细粒度的优化大规模集群下深度推荐模型训练的负载不均衡问题，以及减少 embedding 需要的通信时间，其相关代码^[1] 和论文^[2] 皆已开源。

图 2. 不同 cluster 配置下 DLRM 各部分训练耗时占比

EMBark 介绍

EMBark 旨在提高 DLRM 训练中 embedding 在不同集群配置下的性能，并加速整体训练吞吐量。EMBark 是在 NVIDIA Merlin HugeCTR 开源推荐系统框架的基础上实现的，但所描述的技术也可以应用于其他机器学习框架。

EMBark 有三个关键组件：embedding clusters、灵活的 3D 分片方案和分片规划器。下图展示了 EMBark 的整体架构。

图 3. EMBark 架构图

Embedding Clusters

Embedding clusters 旨在通过将具有相似特征的 embedding 进行分组并为每个 cluster 应用定制的压缩策略来高效地训练 embedding。每个 cluster 包括 data distributor、embedding storage 和 embedding operators，协同将 feature ID 转换为 embedding 向量。

有三种类型的 Embedding clusters：Data-parallel（DP）、Reduction-based（Reduction based）和基于 Unique-based（Unique Based）。每种类型在训练过程中采用不同的通信方法，适用于不同的 embedding。

DP cluster 不压缩通信，因此简单高效，但是因为会将 embedding table 在每个 GPU 上重复，因此仅适用于小表格。
RB cluster 使用归约操作，对于具有池化操作的多 feature 输入表格压缩效果显著。
UB cluster 仅发送唯一向量，有利于处理具有明显访问热点的 embedding table。

灵活的 3D 分片方案

灵活的 3D 分片方案旨在解决 RB cluster 中的工作负载不平衡问题。与固定的分片策略比如 row-wise、table-wise、column-wise 不同，EMBark 使用一个 3D 元组（i, j, k）表示每个分片，其中 I 表示表格索引，j 表示行分片索引，k 表示列分片索引。这种方法允许每个 embedding 跨任意数量的 GPU 进行分片，提供灵活性并实现对工作负载平衡的精确控制。

分片规划器

为了找到最佳分片策略，EMBark 提供了一个分片规划器——一种成本驱动的贪婪搜索算法，根据硬件规格和 embedding 配置识别最佳分片策略。

Evaluation

所有实验均在一个集群上进行，该集群由 NVIDIA DGX-H100^[3] 节点组成，每个节点配备 8 张 NVIDIA H100 GPU（总计 640GB HBM，带宽为每节点 24TB/s）。在每个节点内，所有 GPU 通过 NVLink（双向 900GB/s）互连。节点间通信使用 InfiniBand（8x400Gbps）。

为了展示 EMBark 可以高效训练任何规模的 DLRM 模型，我们测试了使用 MLPerf DLRM-DCNv2 模型并生成了几个具有更大嵌入表和不同属性的合成模型（参见上表）。我们的训练数据集表现出 α=1.2 的幂律偏斜。

图 4. EMBark evaluation 结果

Baseline 采用串行的 kernel 执行顺序，固定的 table-row-wise 分片策略，以及全部使用了 RB-clusters。实验依次使用了三种优化：overlap、更灵活的分片策略和更好的 clusters 配置。

在四种代表性 DLRM 变体（DLRM-DCNv2、T180、T200 和 T510）中，EMBark 实现了平均 1.5 倍的端到端训练吞吐量加速，比 baseline 快最多 1.77 倍。更详细的实验结果和相关的分析，可以参考论文。

结论

EMBark 针对大规模推荐系统模型训练中 embedding 部分耗时占比过高的问题，通过支持 3D 的自定义 sharding 策略和结合不同的通信压缩策略，能够细粒度的优化大规模集群下深度推荐模型训练的负载不均衡问题以及减少 embedding 需要的通信时间，提高大规模推荐系统模型的训练效率，在四种代表性 DLRM 变体（DLRM-DCNv2、T180、T200 和 T510）中，EMBark 实现了平均 1.5 倍的端到端训练吞吐量加速，比 baseline 快最多 1.77 倍。其中，相关代码和论文皆已开源，希望我们的工作对大家有所帮助。同时，我们也在积极探索 embedding offloading 相关技术和进行 TorchRec 相关优化工作，未来也会及时和大家更新相关进展情况，如果您对这部分感兴趣，也可以联系我们，大家一起交流和探索。

[1] NVIDIA-Merlin/HugeCTR github 页面：

https://github.com/NVIDIA-Merlin/HugeCTR/tree/main/benchmarks/embedding_collection

[2] 学术论文－Embedding Optimization for Training Large-scale Deep Learning Recommendation Systems with EMBark：

https://dl.acm.org/doi/10.1145/3640457.3688111

[3] 此为 NVIDIA 技术团队所执行的测试环境，仅供学术论文之相关技术讨论。

作者简介

刘仕杰

刘仕杰于 2020 年加入 NVIDIA DevTech，主要专注于在 NVIDIA GPU 上性能优化和推荐系统加速。加入 NVIDIA 之后，他主要参与了 Merlin HugeCTR 开发和 MLPerf DLRM 优化等相关工作。

点击“阅读原文”，或扫描下方海报二维码，观看 NVIDIA 创始人兼首席执行官黄仁勋与信实工业董事长穆克什·安巴尼在 NVIDIA AI Summit India 上就 AI 未来进行的炉边谈话回放。

NVIDIA英伟达企业解决方案

NVIDIA，一家全栈计算公司，其一直是加速计算领域的先驱，GPU 驱动了PC游戏市场增长，重新定义现代计算机图形，开启现代AI时代，正在推动工业元宇宙的创造。

什么是机器人仿真？

降低噪声：CUDA-Q 助力业内首个量子计算逻辑量子比特演示

Omniverse 资讯速递 | 工业数字化精彩视频、应用案例等你来解锁！

“Super”赋能 NVIDIA Jetson Orin Nano 开发者套件实现性能飞跃

Zordi 使用 AI 和机器人技术在室内种植美味的草莓

NVIDIA Research 开发的模型实现了快速、高效的动态场景重建

Vay 引领出行新方式：借助 NVIDIA DRIVE AGX 平台加速先进自动驾驶汽车方案的部署

NVIDIA 推出高性价比的生成式 AI 超级计算机

构建生成式 AI OpenUSD 应用，呈现准确的品牌营销视觉

工业数字化精彩视频：利用 NVIDIA Omniverse 和 AI 共同塑造智能、高效、可持续的工业未来

洞见 AI 创新：IDC 生成式 AI 白皮书亮点速递

TensorRT-LLM: LLM API 精简指令畅享卓越性能！

在线研讨会 | NVIDIA AI 加速精讲堂 - FP8 在大型模型训练中的应用、挑战及实践

ROSCon China 2024 落幕，看 NVIDIA 如何赋能机器人技术创新与应用

NVIDIA 合作伙伴携前沿应用亮相 ROSCon China 2024

如何使用 FP8 加速大模型训练

NVIDIA 通过加速 AWS 上的机器人仿真推进物理 AI 的发展

亚马逊云科技上的 NVIDIA NIM 大幅增强 AI 推理能力

洞悉 Omniverse：生成式 AI 如何通过 OpenUSD 实现准确符合品牌形象的个性化视觉效果

将实时 IoT 数据连接到数字孪生，实现 3D 远程监控

NVIDIA 打造 Earth-2 以洞见未来

Omniverse 资讯速递 | SC24 最新发布、工业数字化视频、应用案例等你来解锁！

设计与仿真领域资讯速递：了解 NVIDIA 如何助力提效减排、媒体直播、CFD 仿真等领域！

NVIDIA 培训 | AI 培训班新课，学习提示工程构建 LLM 应用

通过 NVIDIA Project GR00T 推进人形机器人视觉和功能开发

NVIDIA TensorRT-LLM Roadmap 现已在 GitHub 上公开发布！

NVIDIA JetPack 6.1 通过优化摄像头堆栈和引入固件 TPM 大幅提升性能与安全性

NVIDIA 在亚马逊云科技 re:Invent 上使用加速计算推进 AI 发展

Katana Studio 使用在 NVIDIA Omniverse 上构建的实时应用简化汽车营销

在线研讨会：如何在 AI 领域加速职业发展（开发者专场）

NVIDIA DOCA 2.9 通过新的性能和安全功能来增强 AI 和云计算基础设施

借助 NVIDIA Isaac Sim，光轮智能加速具身智能研发落地

NVIDIA与微软在Microsoft Ignite上展示Blackwell预览、Omniverse工业AI和RTX AI PC

NVIDIA 自动驾驶实验室：用于自主系统的实时检测基础模型

汽车厂商展示未来：由 AI 赋能基于 NVIDIA DRIVE 的汽车在广州车展上大放异彩

SC24 | 从算法到原子：NVIDIA ALCHEMI NIM 助力电动汽车电池、太阳能电池板等领域加快开发可持续材料

在线研讨会：如何在 AI 领域加速职业发展（开发者专场）

SC24 | NVIDIA 推出 BioNeMo 开源框架，扩大全球生物制药和科学行业的数字生物学研究规模

SC24 | NVIDIA 助力谷歌量子 AI 通过量子器件物理学模拟加快处理器设计

科研机构借助 NVIDIA AI 平台确保医疗数据安全

日本创新企业借助 NVIDIA AI 和 Omniverse，将物理 AI 带入各行各业

Omniverse 资讯速递 | OpenUSD 研讨会预告、NVIDIA 解决方案、应用案例等你来解锁！

巅峰的训练性能：Blackwell 在 MLPerf 测试中将训练性能带到新高度

NVIDIA 解决方案：生成式 AI 在媒体与娱乐领域的应用

TensorRT-LLM 低精度推理优化：从速度和精度角度的 FP8 vs INT8 的全面解析

NVIDIA 解决方案：体育赛事直播

NVIDIA 在微软 Ignite 技术大会上助力企业开启 AI 和工业数字化之旅

日本科技领导者借助 NVIDIA AI Enterprise 和 Omniverse 推进主权 AI

研讨会预告：NVIDIA 携手 Ansys 共创工业元宇宙未来

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉