业务云原生化对基础设施的资源管理和调度能力提出了更高的要求,更多样化的资源管理能力( GPU/FPGA/RDMA),更精细化的资源分配策略(NUMA 绑定/独占、NUMA 级别的 pod 亲和及反亲和、资源微拓扑亲和)。原生拓扑管理机制的局限:K8s 原生调度器不感知节点的微拓扑,可能导致大量非预期的 Admit 失败;K8s 原生的拓扑亲和策略只考虑了 NUMA 拓扑,难以满足大模型训练等业务对性能的要求。•GPU 和 RDMA 在同一个 Root Complex 下,可以使用 GPUDirect RDMA 加速通信。•GPU 和 RDMA 公共的 PCIe Switch 层级越低,Pod 间通信的带宽越大。在分布式训练场景下,RDMA 连接的交换机越近,Pod 间通信的带宽越大对于采用 PS-Worker 框架的训练作业•PS 对性能要求较高,不可跨 NUMA Node 分配资源。•Worker 对内存带宽消耗较大,应避免和 PS 分配在相同的 NUMA Node上。
下载链接:
字节跳动云原生开源:资源管理与成本优化
《液冷技术规范和方案合集》
1、数据中心冷源和末端的高效协同优化研究
2、冷板式液冷人工智能加速卡技术规范介绍
3、高性能液冷系统用快速连接解决方案
网约车全链路压测仿真度度量实战
中国联通超大规模 IT 系统下稳定性保障能力落地实践
大规模服务器集群的线上质量运营实践
多云融合架构下中小银行的建云、上云和用云指南
一云多芯、分层解耦、生态共建:商业银行敏捷创新全技术栈
《服务器及存储用液冷部件技术规范合集》
1、服务器及存储用液冷部件技术规范 第1部分:冷板
2、服务器及存储用液冷部件技术规范 第2部分:连接系统
3、服务器及存储用液冷部件技术规范 第3部分:冷量分配单元
4、服务器及存储用液冷部件技术规范 第4部分:监控系统
数据中心物理基础设施管理要求白皮书
云原生技术研究报告(基础篇)
全维可定义网络5.0新型网络架构
基于开源工具的运维可观测性建设实践
原生数据库发布与云原生下复杂部署关系的识别
网约车全链路压测仿真度度量实战
运维平台可观测与数字孪生的落地实践
工行 IT 架构资产与元数据管理体系建设揭秘
汽车之家 IDC 多活实践之缓存同步实战指南
《62+份超融合技术及报告合集》
《超融合行业实战合集》
信创专题(数据库):信创的关键环节
超融合信创云基础设施解决方案介绍
中国分布式存储产业未来发展空间广阔(2024)
艾瑞咨询:2024年中国SDN与SD-WAN行业研究报告
中国电信天翼视联:视联网云化技术白皮书(2024)
数据智能白皮书(2024年)
光通信深度:以太网在AI算力中的Why、How和What
艾瑞咨询:2024年中国企业级SaaS行业研究报告
2024面向 AI 智算数据中心网络架构与连接技术的发展路线展望白皮书
光通信深度:以太网在AI算力中的Why、How和What
NVMe over RoCEv2 网络优化技术要求和测试规范
云计算研究报告
1、IPv6+创新与标准
2、IPv6创新赋能:可预期智算网络
本号资料全部上传至知识星球,更多内容请登录全栈云技术知识星球下载全部资料。
‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ END ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。
温馨提示:搜索关注“全栈云技术架构”微信公众号,“扫码”或点击“阅读原文”进入知识星球获取10000+份技术资料。