云原生XPU异构资源管理与优化

科技   2024-09-18 08:19   四川  

业务云原生化对基础设施的资源管理和调度能力提出了更高的要求,更多样化的资源管理能力( GPU/FPGA/RDMA),更精细化的资源分配策略(NUMA 绑定/独占、NUMA 级别的 pod 亲和及反亲和、资源微拓扑亲和)。
原生拓扑管理机制的局限:K8s 原生调度器不感知节点的微拓扑,可能导致大量非预期的 Admit 失败;K8s 原生的拓扑亲和策略只考虑了 NUMA 拓扑,难以满足大模型训练等业务对性能的要求。
在分布式训练场景下
•GPU 和 RDMA 在同一个 Root Complex 下,可以使用 GPUDirect RDMA 加速通信。
•GPU 和 RDMA 公共的 PCIe Switch 层级越低,Pod 间通信的带宽越大。
在分布式训练场景下,RDMA 连接的交换机越近,Pod 间通信的带宽越大对于采用 PS-Worker 框架的训练作业
•PS 对性能要求较高,不可跨 NUMA Node 分配资源。
•Worker 对内存带宽消耗较大,应避免和 PS 分配在相同的 NUMA Node上。


下载链接:

字节跳动云原生开源:资源管理与成本优化

《液冷技术规范和方案合集》

1、数据中心冷源和末端的高效协同优化研究 2、冷板式液冷人工智能加速卡技术规范介绍 3、高性能液冷系统用快速连接解决方案

网约车全链路压测仿真度度量实战

中国联通超大规模 IT 系统下稳定性保障能力落地实践

大规模服务器集群的线上质量运营实践

多云融合架构下中小银行的建云、上云和用云指南

一云多芯、分层解耦、生态共建:商业银行敏捷创新全技术栈

《服务器及存储用液冷部件技术规范合集》

1、服务器及存储用液冷部件技术规范 第1部分:冷板 2、服务器及存储用液冷部件技术规范 第2部分:连接系统 3、服务器及存储用液冷部件技术规范 第3部分:冷量分配单元 4、服务器及存储用液冷部件技术规范 第4部分:监控系统

数据中心物理基础设施管理要求白皮书

云原生技术研究报告(基础篇)

全维可定义网络5.0新型网络架构

基于开源工具的运维可观测性建设实践

原生数据库发布与云原生下复杂部署关系的识别

网约车全链路压测仿真度度量实战

运维平台可观测与数字孪生的落地实践

工行 IT 架构资产与元数据管理体系建设揭秘

汽车之家 IDC 多活实践之缓存同步实战指南



下载链接:
艾媒咨询:2024年中国信创产业发展白皮书(精简版)
精华:信创框架报告(收藏)
金融科技行业系列报告:金融信创
信创和云原生趋势下的未来基础架构展望(2023)
2023信创产业新发展趋势报告及100强

《62+份超融合技术及报告合集》

《超融合行业实战合集》 

国产服务器操作系统发展报告(2023年)

信创专题(数据库):信创的关键环节

超融合信创云基础设施解决方案介绍

VMware国产化替代专题
《5000+份全栈云技术及行业知识汇总》

中国分布式存储产业未来发展空间广阔(2024)

艾瑞咨询:2024年中国SDN与SD-WAN行业研究报告

中国电信天翼视联:视联网云化技术白皮书(2024)

数据智能白皮书(2024年)

光通信深度:以太网在AI算力中的Why、How和What

艾瑞咨询:2024年中国企业级SaaS行业研究报告

2024面向 AI 智算数据中心网络架构与连接技术的发展路线展望白皮书

光通信深度:以太网在AI算力中的Why、How和What

工业交换机专题:连接工业设备,赋能新型工业(2024)

NVMe over RoCEv2 网络优化技术要求和测试规范

云计算研究报告

2024年中国边缘云市场报告
《IPv6+创新与标准技术合集》
1、IPv6+创新与标准 2、IPv6创新赋能:可预期智算网络
《VMware Tanzu容器技术合集》
基于IPv6网络的移动目标防御与访问控制融合防护方法


本号资料全部上传至知识星球,更多内容请登录全栈云技术知识星球下载全部资料。

‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧  END  ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。

温馨提示:搜索关注“全栈云技术架构”微信公众号,“扫码”或点击“阅读原文”进入知识星球获取10000+份技术资料。

全栈云技术架构
涵盖微服务架构、云计算、边缘计算、高性能计算、云边协同和训练推理。
 最新文章