活动回顾|文勇刚教授:GPU数据中心大规模深度学习负载调度

文摘   2024-05-06 15:00   广东  

北京时间2024年3月29日,第十三期AIRS-TNSE联合杰出讲座系列活动在线上成功举办。此次,我们有幸邀请到南洋理工大学的文勇刚教授介绍GPU数据中心大规模深度学习负载调度,并分享他在这个领域内的相关研究成果与有趣发现。

本次讲座由AIRS副院长兼群体智能中心主任、香港中文大学(深圳)协理副校长、校长讲座教授、IEEE TNSE主编黄建伟教授担任执行主席和主持人。

面对人工智能日益增长的问题解决能力和泛化能力需求,现代深度学习模型变得越来越庞大且复杂,需要消耗大量计算资源和时间。利用大规模GPU数据中心进行模型训练和推理优化已成为常见做法。然而,由于深度学习任务的高计算需求和底层硬件的异构性,GPU数据中心管理和调度任务面临多重挑战。为此,文勇刚教授及其团队开展了一系列研究工作,旨在开发先进的调度算法来提升人工智能数据中心系统效率和用户体验。

文勇刚教授首先探讨了与流量特征无关的数据中心调度优化的问题,并重点介绍了一个关于非抢占式(non-intrusive)、可解释的调度研究工作Lucid。现有的深度学习任务调度工作大都基于数学求解或机器学习方法对调度策略进行优化,在实际大规模部署方面往往存在用户代码侵入、扩展性差等局限性。为此,文勇刚教授及其团队设计了一个非抢占式、可扩展和可解释的深度学习训练调度器Lucid,可以有效解决现有调度器实际部署中的问题,并可提供和抢占式调度器相当的性能。首先,Lucid采用了一个非抢占式任务分析器(job profiler)用于高效地收集任务指标并及时提供调试任务反馈。其次,Lucid采用了一种打包策略来打包相互之间干扰不大的任务以规避干扰。Lucid还根据估计的任务优先级值和共享分数进行资源调度,以实现高效调度。相比于现有最先进的抢占式调度器Tiresias,Lucid在排队时延(queuing delay)方面有9倍的性能提升。

针对特定流量模式的数据中心优化,文勇刚教授重点分享了一个有关超参数调优(hyperparameter optimization, HPO)的工作。现有的超参数调优开销大,系统对硬件资源利用率低,且往往忽视数据中心集群资源的特性。为此,文勇刚教授及其团队设计了一种基于代理模型(surrogate model)的超参调优框架hydro。首先hydro可以基于m-参数化理论(m-parameterization theory)通过缩小模型来搜索最佳参数。其次,它可以通过跨模型融合来提高资源利用率。最后它可以利用数据中心流水线中的空泡(bubble)来调优。与基准方法Ray Tune相比,它可以大幅度缩短参数调优的端到端时延,并能发现更优的参数。

文勇刚教授的精彩分享发人深思,在参与者与两位教授的积极讨论中,涌现了许多有趣的问题,例如数据中心低碳调度,大模型训练带来的独特挑战等。


视频回顾

Recording


AIRS-TNSE 联合杰出讲座系列

AIRS-TNSE Joint Distinguished Seminar Series

AIRS-TNSE 联合杰出讲座系列由 IEEE TNSE 期刊和深圳市人工智能与机器人研究院(AIRS)联合主办,香港中文大学(深圳)、网络通信与经济学实验室(NCEL)、IEEE 联合支持。该系列活动旨在汇聚网络科学与工程领域的国际顶级专家学者分享前沿科技成果。

*特别鸣谢孙晨曦博士对本文的贡献

相关阅读

AIRS-TNSE 联合杰出讲座系列第十二期回顾

AIRS-TNSE 联合杰出讲座系列第十一期回顾

AIRS-TNSE 联合杰出讲座系列第十期回顾

网络通信与经济
介绍网络、通信和经济交叉领域的最新科研成果和活动 —香港中文大学(深圳)网络通信与经济学实验室
 最新文章