随着数字经济时代的全面开启,算力作为重要“底座”支撑,赋能作用日渐凸显,算力已成为重要的新型生产力。在算力服务产业发展取得高效进展的背景下,对多元化算力资源高效管理及运营应用的重要性进一步提高。算力管理平台不仅能将多元化的算力资源统一纳管,还可以提供迅速、弹性的资源供给服务。
北溟智算是由我院自主研发的SaaS化一站式算力管理平台,以高性能智能计算、人工智能计算、大数据处理等软硬件为基础,可面向各类大中小型机房提供算力托管、租赁服务。
平台目前已支持硬件资源托管、实例虚拟化、集群快捷搭建、Slurm任务等云算力基本功能,后续将持续迭代开发,陆续上线算法模型工具链、大模型快捷部署、大规模并行训练等功能及解决方案。
北溟平台首页
北溟智算:平台概述
北溟智算目标为“打造面向高校科研环境的一站式算力资源管理及算力资源租赁平台”,将算力资源和云资源结合管理,实现了多样性算力资源统一纳管和统一调度,支持多维度的算力调度策略,可为业务提供最优算力资源供给。
※ 面向对象
算力资源提供者、使用者
专业课题组管理人员
专业机房的运维人员
※ 资源形式
高性能计算集群
GPU/CPU集群
服务器
个人主机
※ 平台优势
支持面向算力提供者的算力资源托管
标准化托管流程、可视化资源管理
支持面向内部及外部用户的算力使用
支持虚拟化个人实例、GPU/CPU公共集群
支持闲散算力的汇聚、使用
多元资源形式、互联互通、资源共享
北溟智算:平台展示
北溟智算当前处于内测阶段,内测版本支持以机房为单位的算力资源管理,管理员在物理机上通过键入命令实现将算力资源托管至平台机房中。机房用户可通过平台在资源节点上创建个人实例,通过ssh连接使用实例等等。
节点管理页面
资源总览页面(用户视角)
添加实例
个人实例页面
北溟智算:核心优势
核心技术1-算力资源托管
▪上传完毕数据后,在“项目列表”页面新建项目,选择对应数据集并点击发起训练。
▪每个物理机只能被一个ControlNode托管,而平台用户对此是无感知的。
▪控制节点可能负责资源分配、任务调度、监控等管理功能。
▪业务节点(BusiNode)为平台用户提供可视化的服务。
▪业务节点可能涉及到用户界面、业务逻辑等方面的服务。
算力资源托管架构
核心技术2-虚拟机
▪基于qcwo2格式镜像文件,支持伸缩配置(主要包括cpu,内存,显卡),磁盘空间只支持动态扩展,修改root密码
▪采用vxlan多播技术实现同一网段跨node直接互通;
▪一个用户一个网段(用户数量有上限),虚拟机网络隔离;
▪采用socat端口转发技术,通过master转发远程登录虚拟机;
vxlan多播架构
核心技术3-Slurm公共集群
▪模型部署完毕后,即可通过API在线调用,获取模型识别结果。
▪后台管理人员创建;
▪head,workstation和cpuN扮演角色;
▪集群中所有节点通过nfs挂在9000存储,确保所有用户的文件在节点中都可以查看;
▪所有节点上的账号都依托openLdap,保证集群节点账号信息一致;
▪通过uid和gid进行统一的集群权限管控;
▪通过uid和gid隔离不同用户之间的文件夹,确保数据安全。
Slurm公共集群
2024年5月,北溟智算正式上线1.0版本,即日起邀请广大机房用户内测。具体请联系:林璐 15857189381(微信同号)。
北溟智算平台网址:https://bm.zjuici.com/
关注并标星
了解研究院最新动态