中科院高能物理研究所,是国际领先的高能物理研究基地之一,拥有一系列世界领先的大科学装置和重要实验。每时每刻,都有海量的科研数据从全国各地的试验装置生成,传输、汇聚到计算中心进行存储、管理,并由研究人员利用科学软件进行深入分析和利用。要承担如此重任,底层的网络和算力基础设施必须满足极为苛刻的要求。
为了适应未来的网络和算力需求,高能物理所与华为开展了联合创新,利用华为超融合数据中心网络CloudFabric构建起了由近十万颗CPU核及数百张GPU卡构成的跨地域的高性能计算系统,为研究工作提供了完善的ICT基础设施。
科研机构面临网络难题
为满足科研需求,高能物理所在北京、深圳、江门、稻城、东莞等地部署了由近十万个CPU核心构成的算力资源,以及百PB级的数据存储资源。高能物理所的ICT系统有三个特点,即多源异构、分布式部署和网络环境复杂。多源异构是因为计算任务各不相同,使得研究人员使用的服务器来源、处理器种类及软件各不相同。分布式部署是因为高能物理实验设施分布在全国各地,其算力需要融合来自于国内外合作单位的计算中心。在网络架构方面,不但要解决计算中心内部高效数据访问及异地数据交换问题,还要保障大型实验装置与高能物理所之间的实时高速连接。
由于高能物理所ICT应用系统的特殊性,在规划网络系统时面临两个难题:一是科研数据失之毫厘差之千里,数据传输必须满足零丢包、超低延时;二是网络的管理和运维需简单化和智能化,减少人工维护压力。借助华为超融合数据中心网络CloudFabric 3.0 解决方案,高能物理所升级了其底层网络通讯系统,完全实现了预定目标。
CloudEngine助力
国家大科学装置数字化升级
在广东东莞,坐落着一座国家重大科技基础设施——中国散裂中子源(CSNS),这是世界四大脉冲散裂中子源之一。在2018年CSNS建成后,随着大量研究人员和课题的入驻,实验过程产生了大量的科学数据,为高效支持依托CSNS的科研活动,高能物理所在东莞部署建设了大科学计算中心。
东莞大科学计算中心在网络中全面采用了华为CloudEngine系列交换机,确保数据无损传递;在算力领域,运用华为鲲鹏计算平台和超融合以太智能无损数据中心网络形成了计算、存储、网络统一架构。由于华为CloudEngine交换机可以对数据进行一定整合后再做转发,因此能够有效减轻服务器的负担,整体运行效率比传统以太网提升31%。
实测发现,利用华为超融合以太方案替换原有计算专用网络之后,整体性能基本持平,带宽增加了一倍,建网和运维成本总体减少23%。利用超融合以太方案建设存储网络系统之后,切实做到了0丢包,同时时延缩小了40%,投资成本节省了25%。
CloudFabric赋能基础科学创新
在北京怀柔科学城,高能同步辐射光源(HEPS)正在建设当中。该装置提供了一种更加清晰、准确地观察微观世界的手段,在物理、材料、化工、生命等学科领域有非常广泛的应用。HEPS实验过程中会产生海量的数据,需要先进的高性能计算集群和存储集群来处理、保存,同时还要借助日新月异的AI技术来辅助分析数据,因此新的网络和算力基础设施也必须有能力支撑大规模AI运算。为此高能物理所与华为合作,探索利用华为超融合数据中心网络CloudFabric方案来建设网络体系和计算集群。
目前的规划是利用CloudEngine系列数据中心交换机来构建分布式网络,后续将结合华为AI集群方案推进人工智能开放平台建设,并探索适合高能物理研究发展方向的新兴高性能网络和计算架构。
自从华为数据中心网络CloudFabric解决方案上市以来,已经在多个行业的21000多个数据中心投入了应用。中科院高能物理所与华为的多次合作,让CloudFabric得以在全球顶尖科研机构中大显身手,也为中国基础科学研究的数字化、智能化升级探索出了一条前进之路。高能物理所计算中心主任齐法制表示,中科院高能物理所计算中心期待能和华为一道,在高性能计算领域取得更多的成果。