港科大 iSING Lab 研究论文入选 NSDI 2025,关注 AI 算力基础设施的碳效能优化

文摘   科技   2024-12-12 19:00   美国  

1

AI 算力基础设施的未来可持续性:碳效能与环境、社会和治理目标


随着人工智能(AI)的快速发展,AI 对计算资源的需求正以前所未有的速度增长。根据预测,到2028年,AI 计算负载将占全球数据中心需求的15-20%,大幅超过当前的8%。在机器学习和大模型技术不断进步的同时,如何应对 AI 计算带来的环境影响,并满足环境、社会及治理(ESG)和可持续性要求,是 AI 算力基础设施研究的重要议题。

近日,港科大 iSING Lab 研究团队在 AI 算力基础设施设计与管理方向的最新研究论文,被计算机网络系统方向领域的顶级国际会议——USENIX NSDI 2025 (USENIX Symposium on Networked Systems Design and Implementation)  长文录用(录用率13.7%)。论文题目为 GREEN: A Carbon-Aware Scheduler for Machine Learning Clusters,作者为 Kaiqiang Xu, Decang Sun, Han Tian, Junxue Zhang, Kai Chen。该论文提出了一种兼顾计算效率与碳效率的 GPU 算力调度算法与系统设计,为构建高能效 AI 算力基础设施提供了创新性解决方案。这项研究是相关领域顶级学术会议中最早关注 AI 算力集群碳效能优化的成果之一。
USENIX NSDI 是计算机网络系统领域的最高水平学术会议之一,是 CSRankings 收录会议和中国计算机学会 A 类推荐会议。会议专注于高性能网络与系统的研究创新,推动了 AI 计算时代的大规模系统设计、分布式计算等关键技术的发展与落地,在学术界和工业界均有广泛的影响力。


2
优化碳效率与时间效率的 AI 算力调度策略:GREEN 调度算法

GREEN通过一种全新的调度算法框架,优化了碳效率与时间效率之间的平衡。核心创新在于其碳感知调度模型,通过碳追踪器实时计算任务的能耗和碳排放,并结合因子模型计算作业的能效与碳足迹,为调度算法提供参数依据;同时,GREEN采用双优化器设计,包含能效优化器和碳足迹优化器。能效优化器动态调整任务资源分配,优先扩展能效较高的任务;碳足迹优化器则通过调整任务优先级,将高能耗任务调度至低碳时段,最大限度地减少集群的碳排放。

此外,GREEN引入了多级反馈队列(MLFQ)机制,将这两种优化策略有机结合,提升了资源和时间调度的高效协调。值得注意的是,GREEN在设计中避免修改任务级配置(如超参数或学习率),确保其既不影响用户任务的实现,又能与现有任务级优化技术无缝结合。

在实际生产环境和企业级ML任务工作负载中,我们对GREEN进行了评估。实验结果表明,GREEN在优化碳效率方面表现显著:集群碳排放最多减少41.2%,峰值功率使用降低12%。在此基础上,GREEN保持出色的时间效率,平均作业完成时间仅增加了3.6%-5.9%。这些成果表明,GREEN不仅在降低集群碳足迹方面具有优秀表现,还在时间效率和资源公平性之间实现了良好的平衡。


3
面向下一代 AI 算力云平台的技术研究:高性能与高可用性

在过去三年中,iSING Lab 团队在 AI 算力网络和系统优化上取得了丰硕成果,在计算机系统、网络和数据管理领域的顶级会议上发表了十余篇研究论文,涵盖 RDMA 加速、AI 专用高效通信协议、大模型推理加速等关键技术,全面提升 AI 算力集群的性能与可扩展性。
本文作者徐凯强是 iSING Lab 的博士研究生,他的研究聚焦于大规模 AI 算力集群的管理与性能优化,涵盖网络系统、体系结构及数据管理等领域。徐凯强在 AI 算力优化和管理方向发表了多篇顶级会议论文。此前,他在 ASPLOS 2025 接收的研究提出了针对多租户共享 GPU 集群的系统架构设计与资源调度的创新方法,推动下一代 AI 算力基础设施的技术创新与实际应用(延伸阅读「港科大 iSING Lab 打造下一代 AI 云平台,研究论文入选 ACM ASPLOS 2025」)。
未来,团队将继续深耕 AI 算力基础设施的管理与优化技术,致力于将科研创新与社会应用深度融合,打造具备更高计算与通信性能、更高效 AI 推理与训练能力的新一代 AI 云平台。

关于 iSING Lab

香港科技大学智能网络与系统实验室(iSING Lab)自2012年成立以来,专注于数据中心网络、AI专用高性能网络以及大规模机器学习系统等领域的研究,取得了一系列重要研究成果,是亚洲地区在相关领域顶级会议 SIGCOMM/NSDI 上发表成果最多的科研实验室之一。同时,实验室还承担香港政府RGC主题研究计划,致力推动下一代人工智能基础设施的创新与发展。


iSING Lab
香港科技大学网络与系统实验室(iSING Lab)专注于数据中心网络和机器学习系统的研究和创新。