公开课预告：大规模异构GPU集群的互联、运维与调度｜基流科技技术负责人敬阳主讲

科技 2024-12-17 16:01 北京

智算集群是打造大模型的标配。为了支撑更多、更大规模的模型训练与推理，智算集群建设速度和规模正在飞速增长。

NVIDIA GPU是构建智算集群的首选计算芯片，但是受产能不足、国际环境等复杂因素的影响，很难实现大规模采购，甚至一卡难求。这给智算集群的构建带来了一定的挑战，但也给国产GPU厂商的产品应用落地提供了机会。

不同厂家的GPU在架构、通信库、软件栈方面均存在巨大差异，如何实现不同架构GPU之间的互联互通、高效稳定的通信，以及有效的算力聚合与调度，是异构GPU集群构建面临的巨大挑战。

为了应对上述问题，基流科技构建了面向异构GPU集群的超互联解决方案Helios，以及算力基础设施监控运维平台和大规模异构GPU算力调度平台，能够实现智算集群中大规模异构GPU之间的高效互联互通、运维管理和算力调度。

12月19日19:30，智猩猩智算集群公开课第7期将开讲，由基流科技技术负责人敬阳主讲，主题为《大规模异构GPU集群的互联、运维与调度》。

本次公开课，敬阳老师首先会介绍大模型算力基础设施的构成，并分析大规模异构GPU互联的发展现状以及面临的挑战。之后，敬阳老师将对基流科技面向异构GPU集群的超互联解决方案Helios，以及大规模异构GPU集群的监控运维和算力调度平台的设计与实现进行着重讲解。最后，敬阳老师还将展示基流科技在智算集群构建中的实践案例。

第7期信息

主题

《大规模异构GPU集群的互联、运维与调度》

提纲

1、大模型算力基础设施概览

2、大规模异构GPU互联发展现状与挑战

3、面向异构GPU集群的超互联解决方案Helios解析

4、大规模异构GPU集群的监控运维与算力调度

5、实践案例

主讲人

敬阳，基流科技技术负责人，北京航空航天大学硕士，高级工程师职称，北京基流科技核心骨干。参与编写多项国际/国内发明专利和实用新型专利。曾任北京京东科技有限公司SDN高级研发工程师、Juniper亚太网络研发工程师等职位。在基流科技一起牵头大规模异构GPU的NCCL互联优化创新、RDMA网络的容错增强，相关研发成果已成功在万卡、4千卡及多个2千卡、千卡环境稳定应用。

直播时间

12月19日19:30-20:30

报名方式

有公开课直播观看需求的朋友，可以添加小助手“瑞秋”进行报名。已添加过“瑞秋”的老朋友，可以给“瑞秋”私信，发送“智算集群07”进行报名。对于通过报名的朋友，之后将邀请入群进行观看和交流。

算力猩

隶属于智猩猩，关注计算芯片创新，解读中国算力突破。

算力网（络），应该是什么

先进封装技术解读 | 台积电

IBM 的大规模 A100/H100 GPU 集群 Infra 建设

22页PPT详解 NVIDIA RTX™ 5880 Ada 及训推一体机【附下载】

AI数据中心：网络设计和选型标准

突破内存墙：DRAM技术演进及3D DRAM革命

SC24｜谷歌AI加速器：TPU v6e Trillium技术解析

公开课预告：大规模异构GPU集群的互联、运维与调度｜基流科技技术负责人敬阳主讲

揭秘 AWS 10p10u 最新网络架构！

AI时代的以太网：应对大规模GPU集群网络挑战

智算中心正在CDN化

博通3.5D F2F技术：定义AI XPU的未来

NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署｜在线研讨会直播预告

AI数据中心历史、技术与关键企业

揭秘！世界第一个采用CXL 3.1交换机的AI集群

公开课预告：大模型时代的智算GPU集群｜阿里云智能集团智算集群产品专家陈祎主讲

GPU服务器支持的“卡数”由哪些因素决定？

HBM制裁加码下的困境与出路

Meta 万卡 GPU 集群稳定性剖析与最佳实践

通往万亿晶体管GPU之路

亚马逊芯片帝国背后的功臣

比GPU快20倍？d-Matrix推理性价比分析

AWS最强AI芯片，深度解读！

功能安全的图形显示解决方案与汽车制造业模拟数字孪生平台 | NVIDIA 加速汽车制造与智驾开发专场直播预告

公开课预告：OISA构建开放高性能GPU卡间互联体系｜中国移动研究院李锴主讲

NVIDIA GH200 内部架构探究

UEC 和 UAL 应该合并吗？

AI Infra峰会与大模型峰会议程全公布！2024中国生成式AI大会上海站本周举行，报名即将截止！

公开课预告：针对先进封装的2.5D/3D Chiplet协同设计仿真EDA工具探讨｜硅芯科技创始人赵毅主讲

一文看懂Infinity Fabric

大模型时代：交换机衡量指标、技术演变及性能分析

爱芯元智吴炜：多模态大模型在端侧的创新实践与挑战｜GenAICon 2024上海站演讲预告

智算中心：现状、挑战、策略与未来机遇

GenAICon 2024上海站主会场议程公布！34位学者专家全景式解构大模型与AI Infra

追赶NVIDIA，国产AI芯片需努力的5个方面

光羽芯辰创始人周强：通向个人大模型之路｜演讲预告

从UALink近期发展再看GPU Scale Up的互连方向

无问芯穹首席科学家戴国浩教授：软硬协同与多元异构，共筑大模型算力底座｜演讲预告

公开课预告：智算中心 AI Scale-Up 网络技术｜益思芯科技解决方案副总裁唐杰主讲

大规模AI计算时代的存储：挑战与优化

聊一聊算力调度

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性｜GMI Cloud 亚太区总裁 King.Cui演讲预告

中国系统级封装大会SiP China 2024周三开启！免费报名～

面向大规模AI计算的高性能网络架构：Enfabrica ACF-S解决方案深度解析

近30家大模型与AI Infra企业来了！年度生成式AI大会上海站公布最新嘉宾，报名进入最后阶段

高性能GPU服务器硬件拓扑及集群组网

GPU互连新标准：UALink联盟能否打破NVIDIA垄断？

高性能智算集群设计思考与实践｜阿里云智算集群产品解决方案负责人丛培岩演讲预告

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性？｜GMI Cloud 亚太区总裁 King.Cui演讲预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉