OCP2024 | 新一代人工智能服务器设计

文摘科技 2024-11-20 08:00 四川

引言

在人工智能和机器学习快速发展的背景下，对专用硬件基础设施的需求持续增长。本文探讨了创新的服务器设计方法，针对现代GPU工作负载进行优化，这些内容来自Nebius AI在定制服务器解决方案方面的突破性发展[1]。

服务器架构的演进

传统服务器设计在托管现代GPU时面临诸多局限性，特别是在AI工作负载方面。主要挑战包括散热效率低下、部署程序复杂以及固件专有限制。这些限制推动了对专用解决方案的需求。

针对AI工作负载的高级服务器规格

新一代AI服务器引入了革命性的规格设计，专门用于高性能计算。这些服务器与最新的NVIDIA HGX H100/H200 GPU兼容，同时在散热、可访问性和维护方面融入多项创新。

图1：全面的服务器规格，展示与NVIDIA HGX H100/H200的兼容性、免工具安装功能和先进的散热系统设计。

革命性的无线缆设计

现代服务器设计中最显著的创新之一是消除了主板和GPU组件之间的传统线缆连接。这一进步解决了多个长期困扰服务器维护和可靠性的问题。

图2：传统线缆连接与新型无线缆设计的对比，突出显示改进的可靠性和维护优势。

优化的散热架构

散热管理在服务器设计中仍是核心因素，尤其是对于高性能AI工作负载。新设计实现了一个复杂的散热系统，为CPU和GPU组件设置独立区域。

图3：先进的散热系统设计，具有独立风扇控制系统的分离式CPU和GPU区域。

性能和效率指标

通过比较性能指标，特别是在不同运行温度下的功耗，清晰地展示了这些设计创新的效果。

图4：不同进气温度下Nebius HGX与标准19" HGX服务器的功耗比较。

维护和可访问性特点

现代服务器设计优先考虑维护便利性和组件快速访问，显著减少停机时间和运营成本。

图5：免工具设计特点，实现快速组件访问和维护程序。

总拥有成本优势

这些设计创新的综合效果转化为显著的总拥有成本（TCO）优势。通过各种优化实现了资本支出和运营支出的双重优势：

图6：总拥有成本优势的全面分析，包括资本支出和运营支出的优势。

未来发展和应用

这里概述的服务器设计原则正在扩展到各种用例，包括推理和闪存存储应用。这些发展展示了新架构的多样性和可扩展性。

图7：完整服务器系列概述，展示从ML/AI到计算和存储的各种应用。

结论

用于AI工作负载的服务器设计进步代表了数据中心基础设施的突破。通过解决散热管理、维护和组件集成等关键挑战，这些新设计正在为AI计算基础设施的性能和效率制定新标准。随着组织继续扩展AI运营，这些专用解决方案将在快速发展的技术环境中变得更加重要。

参考文献

[1] Fedorov and I. Znamenskiy, "Designing in-house server solution for hosting modern GPUs," Nebius AI, Tech. Rep. 5436, Oct. 2024.

END

软件申请

我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

关注我们

关于我们：

深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/

（点击上方名片关注我们，发现更多精彩内容）

http://mp.weixin.qq.com/s?__biz=Mzg5MzY2NDAxMw==&mid=2247501089&idx=4&sn=c0ff79b7f5e7b6f1a9bf0133836693e7

逍遥设计自动化

分享特色工艺半导体（PIC/Power/MEMS）设计自动化解决方案及行业技术资讯，与广大业界朋友、专家共同交流！

最新文章

双偏振IMDD系统推进数据中心连接技术

激光雷达遥感技术的最新进展与未来展望

OCP2024 | 新一代人工智能服务器设计

重磅发布 | 逍遥科技推出PIVOT：基于pSim Plus的光子智能变量优化工具

IDTechEx | 光电子集成芯片和硅基光电子的演进

电子系统从2D到4D集成技术的发展

氮化镓技术：从制造到器件加工

光纤供电与射频光纤传输：新一代网络中的复合传输系统

GaN从衬底到器件技术的进展

NVIDIA自动驾驶汽车安全开发技术综述

人工智能时代传输网络的未来规划

Applied Sciences | 集成光电子技术的核心概念与未来展望

上海交大-平湖智能光电研究院携手逍遥科技助力光电子集成芯片产业发展

Optics Express | 使用角锥型横向转移反射器进行三孔径阵列主动相位锁定

无电感低功耗低电压交叉耦合调节式共源跨阻放大器设计

激光雷达数据获取系统

人工智能如何重塑数据中心基础设施

仿真技术推动光/微电子产业高质量发展——逍遥科技第六届仿真技术报道

激光雷达遥感技术原理与应用

通过制造感知反向设计来优化光电子集成芯片

Acacia | 未来光传输网络为人工智能时代做好准备

激光雷达遥感技术简介

Nature Photonics | 通过可控合成时间光子晶格的量子态处理

氮化镓技术：材料与生长工艺

Hot Chips 2024 | 人工智能普及之旅：现代计算中的挑战与解决方案

讯石专访逍遥科技：探索MEMS Studio创新方案，协同并进共创未来

硅基单片波长选择开关：利用阵列波导光栅和布拉格光栅滤波器

Chiplet架构的发展与设计

理解紧密耦合异构系统中的内存操作：Grace Hopper超级芯片指南

Optics Letters | 光学差分波前传感：利用深度学习提高灵敏度和动态范围

GaN技术在电力电子中的应用概述

基于强化学习的模拟线路设计优化

Meta | 人工智能集群光连接的挑战与机遇

Optics Express | 硅基光电子平台上高速外调制宽可调谐激光器

Lightmatter | 光子技术与人工超级智能的道路

基于波导介电网络的偏微分方程求解

利用3D光电子技术实现超低能耗、高带宽密度的芯片数据链路

氮化镓功率器件技术的现状与展望

Hot Chips 2024 | 可持续计算在AI和云原生工作负载中的应用

案例分享 | 使用pSim Plus实现光学神经网络中的脉冲幅值调制技术仿真

Applied Physics Letters | 使用转印技术将铟磷激光器异质集成到硅基光电子波导平台上

面向自动驾驶的硅基光电子车载光网络(SiPhON)系统

IDTechEx | 先进半导体封装技术

APL Quantum | 基于锗硅单光子雪崩二极管的集成硅基光电子室温光量子计算

Nanophotonics | 基于生物启发的平面光学用于3D光检测和测距

现代计算中铜互连的演进

Hot Chips 2024 | 设备端人工智能的优势、发展与热设计挑战

案例分享 | 使用PhotoCAD实现基于马赫曾德干涉仪的光学卷积矩阵单元

异质集成光电子技术中绝热波导耦合器设计的系统方法

经济可持续的AI扩展：硬件挑战和光学解决方案分析

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉