Lepton AI携手DigitalOcean，将大规模GPU稳定性提升至99.5%

旅行 2024-11-08 10:00 中国台湾

GPU集群的稳定性终于不再是个「坑」了！

Lepton AI与DigitalOcean强强联手，将大规模GPU集群的正常运行时间提升到了惊人的99.5%以上。

这一成就远远超过了行业标准中98%左右的服务水平协议（SLA）。

为什么这个数字如此重要？

要知道，GPU可不像CPU那么「乖巧」。每个NVIDIA HGX系统通常包含8个GPU，每个GPU本身就是一台小型计算机。这种复杂性导致它们的故障率比单CPU机器高出不少。

更糟糕的是，一旦GPU出现故障，影响可能会被放大到难以想象的程度。想象一下，你正在进行一个涉及成百上千个GPU的分布式训练任务，突然有一个GPU罢工了。这可能意味着整个任务都得重启，因为所有节点必须实时同步。即使是推理工作负载，大模型的缓慢加载时间和维护缓冲容量的成本也会让每次故障变得比CPU微服务故障昂贵得多。

那么，Lepton AI是如何实现这个「不可能完成的任务」的呢？

他们首先采用了主动健康监控策略。

不再是被动等待硬件信号，而是使用先进的监控工具实时评估GPU和机器的健康状况。这种方法将错误检测时间缩短到了几秒钟，大大提高了问题解决的效率。

另外，Lepton团队拥有超过10年的GPU工作负载管理经验。

他们利用AI技术从系统日志和历史信息中快速识别问题根源，为基础设施提供商提供准确的描述，加速恢复过程。

不仅如此，Lepton平台还能自动识别训练中的常见问题，并通知用户该如何处理。上图展示了Lepton平台如何从冗长的训练日志中自动理解问题根源。

DigitalOcean提供的专门支持和两家公司之间的紧密合作也功不可没。他们不仅在解决当前挑战方面表现出色，还在持续优化基础设施，以适应生成式AI不断演变的需求。

Lepton创始人兼CEO贾扬清（Yangqing Jia）表示：「作为一个从研究员转型为工程师再到创业者的人，看到AI基础设施从桌下嗡嗡作响的一个GPU发展到现在大规模、互联的百万美元集群，真是令人惊叹。要把事情做对并取得成功，需要行业专家的努力。我对这次合作感到非常兴奋！」

这种高度可靠的GPU基础设施不仅仅是技术上的进步，更是为AI开发者和企业提供了一个稳定、流畅的平台，无论是用于模型训练还是推理。

在瞬息万变的生成式AI 潮流中，这样的可靠性或将是一个巨大的竞争优势！

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453455875&idx=2&sn=eb9179737cbe38460feb3539c17c10ca

AGI Hunt

关注AGI 的沿途风景！

Andrej Karpathy谈模型的奇葩命名

重磅！Neuralink加拿大获批，脑机接口临床试验正式启动

AlphaQubit：量子计算错误纠正的未来之光

揭秘：这个GPT 套壳应用是如何做到500万用户的？

吴恩达推出大模型游戏创作课程！

重磅！DeepSeek发布R1 推理模型，硬刚OpenAI o1

地球能养活1000 亿人口吗？

OpenAI 悄悄开启 full-O1 测试！

重磅！ChatGPT开启「眼睛」，实时摄像头对话来了！

印度新闻巨头ANI 怒告OpenAI：你偷我家的菜！

Anthropic发布新研究：为AI评估引入统计误差条！

OpenAI发布学生写作指南，终于教会了学生如何「正确」使用ChatGPT！

EEG脑机接口：用脑子来控制机器人！

马斯克：2026年AGI必到，Optimus替你接送孩子！

Windsurf：Cursor 的最大竞争对手来了！

Perplexity重磅推出购物助手：AI购物新时代来了？

Claude变身「claude酱」，和二次元宅对线开口就是「绝绝子」

重磅！OpenAI o1 或于本周发布，API 推迟至2025年！

200M 模型 SOTA 开源图像细节描述！

李开复的01.ai 用3百万造出GPT-4级对手！

AI奶奶专治电信诈骗：40分钟废话连篇，骗子气到爆粗口！

Grok 3 因证明「黎曼假设」而被暂停训练？！

NEO 重磅问世：第一位「全能」机器学习AI工程师！

MoE「现形记」：训练时按需使用，推理时全员出动？

llms.txt：AI时代的robots.txt！

llama-ocr 登顶Hacker News！

AGI 定义之争：DeepMind vs OpenAI vs Anthropic

走近科学之，17岁高中生的“神级Prompt”

来了！ChatGPT 推出桌面级编程助手！

Anthropic推出Claude 智能改进器，「一键优化」你的AI提示词！

谍战！OpenAI 派飞机侦查马斯克xAI 超算中心

重磅！OpenAI「Operator」明年一月发布！

LeCun被指剽窃！Marcus怒斥：我要告你！

重磅！马斯克或将影响特朗普新政府的AI监管政策

Hinton：别学AI，去当水管工吧！

软体机器人的「超级肌肉」来了：力举千倍重物，柔软如肌肤

Ilya Sutskever：预训练已到瓶颈！

Sam Altman的Worldcoin：用眼睛换币，84%人亏损！

重磅！OpenAI前CTO Murati新团队初具规模！挖角OpenAI成功？

独家解密！Lex Fridman与Anthropic CEO 5小时长谈：Claude 4.0、AGI 2026年或将到来！

再见GPT！你好，「o」！

重磅！AlphaFold 3 终于开源了！

AGI 何时到来？Sam Altman、Dario Amodei、Geoffrey Hinton、Yann LeCun 的时间表

MobA：让AI 真正学会使用手机！

大模型进入瓶颈期，Gary Marcus：我赢了！

OpenAI 新模型Orion 或难产！

Sora 两周内发布！

狂飙！ChatGPT跃升至全球第八大网站！

SpaceX「火星互联网」计划曝光：每秒千万亿比特的星际通信！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉