CPU&GPU超大规模集群部署实践

科技   2024-09-27 07:53   山西  

GPU应用已深刻影响各类业务(搜广推、音视频、MMU、风控等)场景,快手内部GPU在线服务及离线训练任务均完成云原生化迁移。

本文来自“手CPU&GPU超大规模在离线混部落地实践”,重点介绍背景与挑战(快速发展的业务:给资源供给带来了挑战)、利用提升最佳实践CPU混部篇、利用率提升最佳实践GPU混部篇、未来规划及展望。

下载链接:
《2024全球架构师峰会合集(4)》
1、Lowcode &AI云凤蝶的思考与实践 2、降本增效利器:快手CPU&GPU超大规模在离线混部落地实践 3、K8s上数据库私有云之旅:KubeBlocks架构设计与实践 4、华为云客服AI助手的大模型实践与思考 5、安全行业大模型技术应用态势发展报告
《2024全球架构师峰会合集(3)》
1、网易云音乐智能监控探索与实践 2、知乎数据库降本增效实战 3、字节跳动观测智能化之路 4、高弹性、高性能SMS网关:突变流量应对实战 5、无极低代码UI可视化的AIGC落地与实践
《2024全球架构师峰会合集(2)》
1、日活千万级的活动平台设计之道 2、火山引擎veRTC场景下高可用云边通信实践 3、破局升维革新大模型时代的数字员工 4、eBay风控实时特征平台建设和应用案例 5、腾讯云安灯AI大模型应用实践与探索
《2024全球架构师峰会合集(1)》
1、大规模智算集群的管理与性能调优实践 2、华院认知智能引擎平台落地实践 3、微众银行大模型助效研发实践:AI为主角、人为助手的协作模式 4、运用最小企业架构构建业务平台 5、AI是协作者,而非替代者:探讨AI高效协作开发
面向数据分析领域的Agent思考和探索
NL2SQL旅行绿皮书:SQL模型训练专列
DB-GPT在京东零售大数据平台的落地实践
AI原生数据应用架构与落地探讨
全链路监控在根因分析和业务监控中的应用
携程门票:亿级流量挑战下的高可用架构设计与实践
《云计算白皮书(2024年)合集》
1、云计算白皮书(2024年) 
2、解读:云计算白皮书(2024年)


下载链接:
工业领域云安全实践指南
AI原生云建设与加速指南
爆发式增长业务的高可用架构优化之路
如何稳定高效地利用K8s集群资源
成本优先的技术架构
AI浪潮下架构师的4个关键可迁移技能及提升技巧
2024年AI原生路由器白皮书
大模型时代数据库技术创新
云计算白皮书(2024年)
《国密算法的设计与实现合集》
1、SeChain  基于国密算法的RISC-V安全启动机制设计与实现 2、国密SM4算法CBC模式的高效设计与实现

面向超万卡集群的新型智算技术白皮书

面向AI大模型的智算中心网络演进白皮书

网络系列报告之交换机概览:IB性能占优,以太网开放占优

中国分布式存储产业未来发展空间广阔(2024)

艾瑞咨询:2024年中国企业级SaaS行业研究报告

艾瑞咨询:2024年中国SDN与SD-WAN行业研究报告

中国电信天翼视联:视联网云化技术白皮书(2024)

2024年中国边缘云市场报告
《IPv6+创新与标准技术合集》

NVMe over RoCEv2 网络优化技术要求和测试规范

云计算研究报告

2024年中国边缘云市场报告
《IPv6+创新与标准技术合集》
1、IPv6+创新与标准 
2、IPv6创新赋能:可预期智算网络
《VMware Tanzu容器技术合集》
基于IPv6网络的移动目标防御与访问控制融合防护方法
空间数据智能:概念、技术与挑战

泛在计算安全综述

面向超万卡集群的新型智算技术白皮书

面向AI大模型的智算中心网络演进白皮书

网络系列报告之交换机概览:IB性能占优,以太网开放占优

中国分布式存储产业未来发展空间广阔(2024)

《智算数据中心基础设施技术合集》

1、新一代智算数据中心基础设施技术方案白皮书 

2、云化时代运营商数据中心业务及网络演进研究 

3、探索未来数据中心:数据中心2030 

4、云计算数据中心网络技术 

5、数据中心网络解决方案Underlay网络设计指南 

6、数据中心智能化运维发展研究报告 

7、面向AI大模型的智算中心网络演进白皮书

《算力网络技术专题合集》

1、面向算力网络的云边端协同调度技术 

2、算力网络资源协同调度探索与应用 

3、面向算力网络的多路径时敏优先调度机制 

4、算力网络四面三级算力度量技术体系 

5、东数西算场景下的算力网关研发及应用

存算一体:算力网络创新发展

本号资料全部上传至知识星球,更多内容请登录全栈云技术知识星球下载全部资料。

‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧  END  ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。

温馨提示:搜索关注“全栈云技术架构”微信公众号,“扫码”或点击“阅读原文”进入知识星球获取10000+份技术资料。

全栈云技术架构
涵盖微服务架构、云计算、边缘计算、高性能计算、云边协同和训练推理。
 最新文章