10月起,智猩猩芯片与算力教研组全新策划推出「智猩猩智算集群公开课」,聚焦集群构建、互联网络、算力调度、存储等关键技术。
目前,「智猩猩智算集群公开课」前两期已顺利完结。腾讯专有云首席架构师方天戟、矩向科技CEO黄朝波分别以《智算集群技术概述》、《智算中心融合算力调度》为主题,进行了直播讲解。
11月8日19:30,「智猩猩智算集群公开课」第3期将开讲,由云脉芯联产品总监孙伟主讲,主题为《智算集群网络互连技术创新应用与展望》。
模型参数规模的不断提升,导致在单个芯片上完成大模型的训练和推理变得不太现实,需要将多个芯片或多台服务器互连起来组成智算集群,才能完成大模型的训练和推理工作。智算集群规模也正在从千卡、万卡向10万卡演进。
而智算集群中芯片与芯片、机柜与机柜之间的互连,并不是简单的“手拉手”,因为面对百亿、千亿乃至万亿级别的大模型,智算集群要处理海量的数据,因此需要超高带宽、超低延迟的网络互连技术,来确保集群内数据的高效传输。
同时,集群规模越大,网络结构也会越复杂,如何根据不同的计算任务和数据传输需求,动态地调整网络带宽和路由策略,优化数据传输路径,确保数据在最短的时间内到达目的地,也是智算集群网络架构设计时需要考虑的关键因素。高性能网络互连技术已成为打造智算集群的关键所在。
此次公开课,孙伟老师首先会分享智算集群业务对网络互连技术的需求和挑战,并介绍业内常见的智算集群网络优化方案。之后,孙伟老师将着重讲解云脉芯联在智算集群网络互连技术领域的创新和应用,以及网络互连技术的未来发展趋势。
第3期信息
主 题
《智算集群网络互连技术创新应用与展望》
提 纲
1、智算集群业务对网络互连技术的需求与挑战
2、业内常见智算集群网络优化方案
3、云脉芯联在智算集群网络互连技术领域的创新与应用
4、智算集群网络互连技术发展展望
主 讲 人
孙伟,云脉芯联产品总监,拥有近20年网络产品研发和产品市场经验,在基础网络、云网络和高性能网络等领域具有深刻的见解和洞察能力,当前主要从事AI智算中心网络和云计算数据中心DPU领域的产品相关工作。
直 播 时 间
11月8日19:30-20:30
报名方式
有公开课直播观看需求的朋友,可以添加小助手“瑞秋”进行报名。已添加过“瑞秋”的老朋友,可以给“瑞秋”私信,发送“智算集群03”进行报名。对于通过报名的朋友,之后将邀请入群进行观看和交流。