港科大 iSING Lab 研究论文入选 NSDI 2025,关注 AI 算力基础设施的碳效能优化
文摘
科技
2024-12-12 19:00
美国
AI 算力基础设施的未来可持续性:碳效能与环境、社会和治理目标
随着人工智能(AI)的快速发展,AI 对计算资源的需求正以前所未有的速度增长。根据预测,到2028年,AI 计算负载将占全球数据中心需求的15-20%,大幅超过当前的8%。在机器学习和大模型技术不断进步的同时,如何应对 AI 计算带来的环境影响,并满足环境、社会及治理(ESG)和可持续性要求,是 AI 算力基础设施研究的重要议题。
近日,港科大 iSING Lab 研究团队在 AI 算力基础设施设计与管理方向的最新研究论文,被计算机网络系统方向领域的顶级国际会议——USENIX NSDI 2025 (USENIX Symposium on Networked Systems Design and Implementation) 长文录用(录用率13.7%)。论文题目为 GREEN: A Carbon-Aware Scheduler for Machine Learning Clusters,作者为 Kaiqiang Xu, Decang Sun, Han Tian, Junxue Zhang, Kai Chen。该论文提出了一种兼顾计算效率与碳效率的 GPU 算力调度算法与系统设计,为构建高能效 AI 算力基础设施提供了创新性解决方案。这项研究是相关领域顶级学术会议中最早关注 AI 算力集群碳效能优化的成果之一。USENIX NSDI 是计算机网络系统领域的最高水平学术会议之一,是 CSRankings 收录会议和中国计算机学会 A 类推荐会议。会议专注于高性能网络与系统的研究创新,推动了 AI 计算时代的大规模系统设计、分布式计算等关键技术的发展与落地,在学术界和工业界均有广泛的影响力。优化碳效率与时间效率的 AI 算力调度策略:GREEN 调度算法GREEN通过一种全新的调度算法框架,优化了碳效率与时间效率之间的平衡。核心创新在于其碳感知调度模型,通过碳追踪器实时计算任务的能耗和碳排放,并结合因子模型计算作业的能效与碳足迹,为调度算法提供参数依据;同时,GREEN采用双优化器设计,包含能效优化器和碳足迹优化器。能效优化器动态调整任务资源分配,优先扩展能效较高的任务;碳足迹优化器则通过调整任务优先级,将高能耗任务调度至低碳时段,最大限度地减少集群的碳排放。
此外,GREEN引入了多级反馈队列(MLFQ)机制,将这两种优化策略有机结合,提升了资源和时间调度的高效协调。值得注意的是,GREEN在设计中避免修改任务级配置(如超参数或学习率),确保其既不影响用户任务的实现,又能与现有任务级优化技术无缝结合。
在实际生产环境和企业级ML任务工作负载中,我们对GREEN进行了评估。实验结果表明,GREEN在优化碳效率方面表现显著:集群碳排放最多减少41.2%,峰值功率使用降低12%。在此基础上,GREEN保持出色的时间效率,平均作业完成时间仅增加了3.6%-5.9%。这些成果表明,GREEN不仅在降低集群碳足迹方面具有优秀表现,还在时间效率和资源公平性之间实现了良好的平衡。
面向下一代 AI 算力云平台的技术研究:高性能与高可用性在过去三年中,iSING Lab 团队在 AI 算力网络和系统优化上取得了丰硕成果,在计算机系统、网络和数据管理领域的顶级会议上发表了十余篇研究论文,涵盖 RDMA 加速、AI 专用高效通信协议、大模型推理加速等关键技术,全面提升 AI 算力集群的性能与可扩展性。未来,团队将继续深耕 AI 算力基础设施的管理与优化技术,致力于将科研创新与社会应用深度融合,打造具备更高计算与通信性能、更高效 AI 推理与训练能力的新一代 AI 云平台。香港科技大学智能网络与系统实验室(iSING Lab)自2012年成立以来,专注于数据中心网络、AI专用高性能网络以及大规模机器学习系统等领域的研究,取得了一系列重要研究成果,是亚洲地区在相关领域顶级会议 SIGCOMM/NSDI 上发表成果最多的科研实验室之一。同时,实验室还承担香港政府RGC主题研究计划,致力推动下一代人工智能基础设施的创新与发展。