港科大陈凯教授领导的 iSING 实验室在 AI 算力基础设施设计与管理方向的最新研究论文,近日被计算机体系结构领域的顶级国际会议—— ACM ASPLOS 2025(ACM International Conference on Architectural Support for Programming Languages and Operating Systems, ACM 国际编程语言与操作系统体系结构支持会议)长文录用(录用率12.7%)。论文题目为 Design and Operation of Shared Machine Learning Clusters on Campus,作者:Kaiqiang Xu, Decang Sun, Hao Wang, Zhenghang Ren, Xinchen Wan, Xudong Liao, Zilong Wang, Junxue Zhang, Kai Chen. 论文针对日益增长的AI算力需求,研究设计并运营大规模、可扩展的高性能GPU集群,实现AI算力基础设施的高效管理与资源调度。
该项目受港府RGC主题研究计划支持于2020年启动,本文第一作者为陈凯教授指导的博士研究生徐凯强,他的研究聚焦于大规模 GPU 集群的管理与性能优化,涵盖网络系统、体系结构及数据管理等领域。
该论文深入探讨了针对AI研究和应用场景的多租户GPU集群的设计与运营。在大型机器学习模型迅速发展的时代,AI算力需求激增,许多机构投入巨资建设算力集群。然而,由于各方基础设施管理多依靠传统工具和技术,缺乏AI算力网络优化和管理多租户GPU集群的经验,往往导致资源利用率低下,用户体验不佳。因此,AI算力基础设施的架构设计与管理能力已成为制约AI应用加速发展的主要瓶颈。
高效的GPU集群必须应对多个系统层次的问题,包括硬件拓扑、资源调度、网络通讯优化以及数据管理等方面,才能有效支撑大规模AI应用的计算需求。
为应对这些挑战,论文设计并建设了 TACC (Turing AI Computing Cloud) 平台。TACC 将机器学习作业的处理流程简化为四层架构:任务描述、任务编译、资源调度和底层通讯计算。每一层都根据AI应用的计算特征进行了针对性设计,采用了高性能且易于使用的技术方案,通过四层架构无缝衔接作业的编译、调度与执行。
同时,TACC 强调简洁稳定的设计原则,在控制运营成本的同时确保用户高效运行。TACC 具备高度可扩展性,能够在特定计算负载下(如LLM推理、集成大规模RAG和图神经网络等)灵活切换各层技术方案,以实现对不同AI计算负载的针对性优化;此外,论文还对过去三年 TACC 平台的使用模式、任务特征及故障处理进行了详细分析,并计划公开系统基础数据,以进一步推动该领域的研究与发展。
审稿人对论文给予了高度评价,认为该论文探讨了一个重要问题,并且整体软件架构设计精良,实验结果和性能指标令人瞩目,展示了此系统的显著积极影响。审稿人还提到,这篇论文让他联想到20年前USENIX会议中的优秀论文,既展示了一个实用系统的设计与使用过程,也总结了其设计决策以及在使用周期内的各种正向和负向经验,是一项非常出色的工作。
Reviewer: Thank you authors for submitting this paper. I believe it tackles an important problem. Your overall software architecture seems well done and the experienced results and metrics are certainly interesting, demonstrating the high positive impact of this implementation.
This paper reminds me of the best of USENIX papers from perhaps 20 years ago: a paper that describes a practical system, how it was used, the design decisions that went into the system, and the experiences of the community, good and bad, over a period of its lifetime. It's nice work
自2021年上线以来,TACC平台已成为港科大校内最大规模的AI算力集群之一 (tacc.ust.hk),受香港政府主题研究计划的资助,平台目前拥有近500名活跃用户,包括港科大和全球的AI研究人员与工程师。目前,TACC已被港科大提名为2026年香港政府UGC研究评审(Research Assessment Exercise)中的高影响力案例,充分体现了其在AI系统研究中的重要地位和影响力。
TACC 的架构设计在工业界和技术社区中也获得了广泛关注。研究团队通过与中国联通、DaoCloud 等云服务商的合作,多次验证并落地了该架构设计。2024年8月,TACC 团队成员徐凯强在由Linux基金会在香港主办的顶级云原生开源大会 KubeCon 上(Linux 创始人Linus Torvalds 出席),分享了 TACC as a Unified Cloud-Native Infrastructure for AI and HPC 的架构设计经验,受到了与会者的高度关注与热烈反响。
关于 iSING Lab
香港科技大学智能网络与系统实验室(iSING Lab)自2012年成立以来,专注于数据中心网络、AI专用高性能网络以及大规模机器学习系统等领域的研究,取得了一系列重要研究成果,是亚洲地区在相关领域顶级会议 SIGCOMM/NSDI 上发表成果最多的科研实验室之一。同时,实验室还承担香港政府RGC主题研究计划,致力推动下一代人工智能基础设施的创新与发展。