USENIX ATC 2024最佳论文 | 微软如何提升云AI基础设施的可靠性

科技科技 2024-07-31 17:18 中国

（本文阅读时间：6分钟）

编者按：近日，来自微软亚洲研究院的研究员们和来自微软 Azure 云平台的工程师们联合发布了一项开创性的、聚焦云 AI 基础设施高可靠性的研究工作：SuperBench 系统。该系统通过主动验证的手段解决了云 AI 基础设施中难以捉摸的“灰色故障”问题。这一研究工作已被全球计算机系统领域的顶级学术会议 USENIX ATC 2024 接收，并荣获最佳论文奖。SuperBench 不仅引起了业界的广泛关注，还有望改变未来云服务提供商确保 AI 基础设施高可靠性的方式，从而为行业树立新的标准。

随着云 AI 工作负载变得越来越复杂和大规模，维护系统的高可靠性变得至关重要。传统的系统高可靠性保障方法，如冗余组件，不经意间引入了一个新的问题——隐性性能退化，又被称为灰色故障。灰色故障由冗余组件的逐渐失效引起，前期主要表现为不明显的性能逐渐下降，并且难以被系统管理者察觉。当后期冗余组件完全失效时，系统才会显现出明显的性能退化。这使得识别和解决系统故障的任务变得十分复杂。

传统的系统可靠性保障方法往往依赖于被动的故障排除手段，比如硬件预检和故障后修复，这些方法无法有效解决灰色故障问题。微软亚洲研究院的研究员们与微软 Azure 云平台的工程师们意识到，仅靠被动的故障排除并不足以应对这一挑战。于是，他们提出了一种创新的主动验证解决方案——SuperBench 系统。SuperBench 通过引入全面的基准测试和主动验证技术，能够在故障发生之前识别潜在的性能问题，从而显著提升系统的整体可靠性。相关论文已被全球计算机系统领域的顶级学术会议 USENIX ATC 2024 接收，并荣获最佳论文奖。

SuperBench 论文链接：

https://www.microsoft.com/en-us/research/publication/superbench/

GitHub 链接：

https://github.com/microsoft/superbenchmark

SuperBench 的设计理念是主动验证而非被动反应，它能够在系统出现显著性能退化之前，及时检测并修复潜在的问题。这种方法不仅提高了系统的稳定性，也减少了维护成本和用户遭遇的性能问题。

为了有效缩短平均故障间隔时间，主动验证必须满足以下要求：首先，它需要全面覆盖各种 AI 工作负载，以确保检测到在新集群中可能被忽视的问题；其次，验证必须具有明确的标准，以区分正常性能和渐进性性能退化的问题，确保测试结果的一致性；最后，验证过程必须具备成本效益，以确保验证开销远低于处理故障所带来的费用。

然而，实现这些要求面临着不少显著的挑战：工作负载和节点组合的数量庞大，使得验证过程中无法涵盖所有场景；缺乏对缺陷组件的可靠评估标准，所以硬件规格无法准确预测负载性能；AI 硬件的变化性加大了问题的复杂性；此外，验证时间和平均故障间隔时间之间存在相互影响，让优化验证成本与延长平均故障间隔时间的平衡成为一项复杂的任务。

SuperBench 的核心是一套全面的基准测试套件，用于评估单个硬件组件和各种真实的 AI 工作负载，其能够确保系统检测到在正常操作过程中可能隐匿的问题。

SuperBench 包括：

全面的基准测试套件：包括对典型 AI 工作负载的端到端基准测试和针对单个硬件组件的微基准测试，能够更全面、更彻底地对系统进行测试并及早发现潜在问题。

选择器模块：采用实时概率模型来确定最有效的基准子集，能够在验证时间和事件相关成本之间取得平衡，从而确保验证的高效和影响力。

验证器模块：利用先进的机器学习技术分析基准数据，并精准定位缺陷硬件。通过关注累积分布指标而非平均值，SuperBench 可以清晰地区分功能正常和故障的组件。

图1：SuperBench 的工作原理概览

通过在 Azure 生产环境中两年的成功部署，SuperBench 充分展示了其有效性。在此期间，SuperBench 验证了数十万块 GPU，识别出了10.36%的节点存在缺陷，并显著提高了系统的可靠性。

模拟结果表明，与未进行验证和未选择基准的全套验证相比，SuperBench 可以将平均故障间隔时间（MTBI）提高至22.61倍，并将用户 GPU 利用率增加4.81倍，同时将验证时间成本降低92.07%。

图2：30天内采用不同基准模拟的平均节点利用率，SuperBench 实现了90.70%的高集群利用率，将无验证基线提高了4.81倍，全集基线提高了1.09×

SuperBench 的推出标志着主动系统验证的重大进展，其通过解决灰色故障问题提高了云 AI 基础设施的可靠性，同时还带来了成本节约和运营效率的提高。该研究不仅深入探究了云 AI 基础设施中的灰色故障问题，还分析了包括硬件故障、性能倒退等问题的来源和根本原因，对相关领域的研究做出重要贡献。在未来，微软亚洲研究院将继续探索如何提升云 AI 基础设施性能，完善云 AI 高效可靠的服务。

你也许还想看：

http://mp.weixin.qq.com/s?__biz=MzAwMTA3MzM4Nw==&mid=2649501169&idx=1&sn=40694fd3a807ba722c1078c85c7c3fcb

微软亚洲研究院

微软亚洲研究院，专注科研26年，盛产黑科技

最新文章

Rust自动形式化证明、LLMs图模式理解、机械臂动作模仿

科学匠人 | 对话松下康之：以具身智能突破人工智能与物理世界的边界

对话《Nature》论文作者，揭秘AI2BMD背后的故事

近实时的全球碳预算，揭示2023年陆地碳汇能力锐减

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

MarS：生成式基座模型时代的通用金融市场模拟引擎

明天直播 | ECCV 2024精选论文分享

如何泛化AI的深度推理能力？

简单而强大：DIFF Transformer降噪式学习，开启模型架构新思路

科学匠人 | 刘海广：发挥“生物多样性”法则的力量，寻找科学的新答案

VIS 2024最佳论文 | VisEval：推动自然语言生成可视化的全新评估框架

从预测风暴到设计分子：人工智能基础模型如何加速科学发现

ECCV上新 | 精选计算机视觉领域6篇前沿论文

Data Formulator：使用prompt就能轻松完成数据可视化

为什么你的LLMs玩不转外部知识？RAG分类学助你诊断！

守护记忆：多模态大模型为认知障碍患者带来全新的训练方法

科研上新 | 金融模型、LLMs结构化剪枝、多模态对齐、AI芯片深度学习编译器

开源工具RD-Agent：让研究与开发过程更智能

VALL-E 2，大幅提升语音大模型的稳健性与自然度

微软亚洲研究院2025校园招聘正式开启！

跨越模态边界，探索原生多模态大语言模型

明天直播 | ACL 2024精选5篇论文直播分享

代码摘要、生成、翻译、修复全覆盖... WaveCoder开启代码智能新篇章

集成大语言模型与产业数据智能，迈向“产业基础模型”

Microsoft Research Forum第四期来了！一起来看多模态模型的最新技术进展与应用

星跃计划 | 微软亚洲研究院北京+温哥华联合科研项目上新，聚焦大语言模型！

开启因果发现新范式！解密复杂系统的核心机制

微软亚洲研究院多项创新技术，弥合大模型低比特量化与终端部署间鸿沟

顶尖高校优秀学子齐聚微软亚洲研究院新星科技节，论道科研！

如何理解和探索大模型的多语言能力？

执业医师转型人工智能研究员，王子龙说“跨”才是关键

ACL上新 | 6篇精选论文带你看最新LLMs进展

周二直播 | AI for Science最新论文分享

USENIX ATC 2024最佳论文 | 微软如何提升云AI基础设施的可靠性

图像解码器；多头混合专家网络；视觉模型美学对齐；医学视觉任务适应基准

大语言模型应用如何实现端到端优化？

LSR-MP：突破分子模拟瓶颈，探索知识引导的AI范式

明天直播 | ICML 2024精选论文分享

nnScaler：重塑深度学习并行策略，大幅提升训练效率

ICML 2024 | 微软亚洲研究院邀你共聚机器学习领域盛会

完全激活稀疏大模型，Q-Sparse突破LLM推理效能

数据驱动模型提升电动汽车电池退化预测准确率

ProbTS：时间序列预测的统一评测框架

你应该知道的10个AI术语

实习 | 微软亚洲研究院“明日之星”开放岗位

脑启发设计：人工智能的进化之路

以智能化为舵手，引领现代计算机系统架构新航向

构建负责任且大规模的生成式人工智能的七个启示

AI赋能天气：微软研究院发布首个大规模大气基础模型Aurora

CVPR上新 | 从新视角合成、视频编解码器、人体姿态估计，到文本布局分析，微软亚洲研究院精选论文

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉