OCP2024 | 新一代人工智能服务器设计

文摘   科技   2024-11-20 08:00   四川  

引言

在人工智能和机器学习快速发展的背景下,对专用硬件基础设施的需求持续增长。本文探讨了创新的服务器设计方法,针对现代GPU工作负载进行优化,这些内容来自Nebius AI在定制服务器解决方案方面的突破性发展[1]。


服务器架构的演进

传统服务器设计在托管现代GPU时面临诸多局限性,特别是在AI工作负载方面。主要挑战包括散热效率低下、部署程序复杂以及固件专有限制。这些限制推动了对专用解决方案的需求。


针对AI工作负载的高级服务器规格

新一代AI服务器引入了革命性的规格设计,专门用于高性能计算。这些服务器与最新的NVIDIA HGX H100/H200 GPU兼容,同时在散热、可访问性和维护方面融入多项创新。

图1:全面的服务器规格,展示与NVIDIA HGX H100/H200的兼容性、免工具安装功能和先进的散热系统设计。


革命性的无线缆设计

现代服务器设计中最显著的创新之一是消除了主板和GPU组件之间的传统线缆连接。这一进步解决了多个长期困扰服务器维护和可靠性的问题。

图2:传统线缆连接与新型无线缆设计的对比,突出显示改进的可靠性和维护优势。


优化的散热架构

散热管理在服务器设计中仍是核心因素,尤其是对于高性能AI工作负载。新设计实现了一个复杂的散热系统,为CPU和GPU组件设置独立区域。

图3:先进的散热系统设计,具有独立风扇控制系统的分离式CPU和GPU区域。


性能和效率指标

通过比较性能指标,特别是在不同运行温度下的功耗,清晰地展示了这些设计创新的效果。

图4:不同进气温度下Nebius HGX与标准19" HGX服务器的功耗比较。


维护和可访问性特点

现代服务器设计优先考虑维护便利性和组件快速访问,显著减少停机时间和运营成本。

图5:免工具设计特点,实现快速组件访问和维护程序。


总拥有成本优势

这些设计创新的综合效果转化为显著的总拥有成本(TCO)优势。通过各种优化实现了资本支出和运营支出的双重优势:

图6:总拥有成本优势的全面分析,包括资本支出和运营支出的优势。


未来发展和应用

这里概述的服务器设计原则正在扩展到各种用例,包括推理和闪存存储应用。这些发展展示了新架构的多样性和可扩展性。

图7:完整服务器系列概述,展示从ML/AI到计算和存储的各种应用。


结论

用于AI工作负载的服务器设计进步代表了数据中心基础设施的突破。通过解决散热管理、维护和组件集成等关键挑战,这些新设计正在为AI计算基础设施的性能和效率制定新标准。随着组织继续扩展AI运营,这些专用解决方案将在快速发展的技术环境中变得更加重要。


参考文献

[1] Fedorov and I. Znamenskiy, "Designing in-house server solution for hosting modern GPUs," Nebius AI, Tech. Rep. 5436, Oct. 2024.


END


软件申请
我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请


欢迎转载


转载请注明出处,请勿修改内容和删除作者信息!




关注我们



                      




关于我们:

深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。


http://www.latitudeda.com/

(点击上方名片关注我们,发现更多精彩内容)

逍遥设计自动化
分享特色工艺半导体(PIC/Power/MEMS)设计自动化解决方案及行业技术资讯,与广大业界朋友、专家共同交流!
 最新文章