2024年可谓是中国智算中心建设爆发的一年。在这一年里,我国的智算中心建设项目正在由分散生长转向集中化建设。从多家媒体公开的新闻中,我们能看到不少企业正在以建设十万卡集群作为目标,就是为了解决高质量算力供不应求的情况,从而为大模型的训练提供必要的算卡及算力。与此同时,我们还需要考虑一个问题,智算集群的建设仅仅靠堆卡就能满足基础大模型的训练任务吗?答案是否定的,因为还有一个 MFU (Model FLOPs Utilization,模型算力利用率)的问题,留给智算中心的建设与运维团队来解决。
本期【网事数说】节目,加入了来自武汉超擎数智科技有限公司技术总监刘畅先生,与嘉宾陈岚女士和吴健先生共同探讨智算中心的建设问题,从国内与国外数据中心建设的差异性中剖析问题。刘畅先生的加入,不仅将大量的智算中心建设与运营场景参考融入到节目中,也分享了大量的国外智算中心实施经验,让从前的“二人谈”成为“三人行”的探讨。
事实上,综合布线只占整个智算中心投资的1%左右,他们为什么不做呢?
据发现,国内一些项目中,大部分的集群算力利用率在30%以内,是什么原因呢?
某企业的智算中心,从512台4000卡扩展到1024台8000卡只用了一个月不到,是怎么做到的?
为什么智算中心必须用结构化布线?
国内外智算中心建设有什么不同之处?
为什么 AOC 的方式逐渐被建设者抛弃?
观看本期【网事数说】
从视频中免费获取白皮书
《适用于 NVIDIA AI 网络的数据中心布线解决方案》
本白皮书由康普公司编写,基于康普对英伟达设备集群环境的研究,涵盖对万卡乃至十万卡集群综合布线设计的方案指导、最新的部分智算加速器分析、400G、800G、1.6T的网络模型的搭建、智算集群机柜布局和选择等信息,旨在为智算中心的工程师和规划人员提供以结构化布线为核心的参考指导。
刘畅
武汉超擎数智科技有限公司技术总监,专注AIDC解决方案设计与优化,在AIDC网络架构和高速连接件领域有丰富实践经验。
关于武汉超擎数智科技有限公司
人工智能整体解决方案提供商,总部位于武汉·中国光谷,拥有业界一流的技术研发、生产制造和方案服务能力,提供AI算力+无损网络+高速光联接产品与解决方案,深度构建AI软件、服务和算力运营全栈式AI技术能力。
活动推荐
“第三届数据中心液冷大会”将于2025年3月27日在杭州召开,这场行业盛事将集结数据中心领域的顶尖专家、技术大牛和学术研究者,共同探讨创新趋势,携手谋划合作机遇,助力行业蓬勃发展。
关键词:液冷、全栈、最佳实践、芯片、服务器、基础设施
嘉宾规模:500+专业人士
会议形式:展览展示+主旨演讲+技术分享+应用案例参观
详情扫码咨询:
联系电话:13716595411
往届回顾(点击下方文字查看)
关注我们获取更多精彩内容
往期推荐