【研究院动态】北溟智算平台内测上线!

2024-05-24 17:15   浙江  

随着数字经济时代的全面开启,算力作为重要“底座”支撑,赋能作用日渐凸显,算力已成为重要的新型生产力。在算力服务产业发展取得高效进展的背景下,对多元化算力资源高效管理及运营应用的重要性进一步提高。算力管理平台不仅能将多元化的算力资源统一纳管,还可以提供迅速、弹性的资源供给服务。


北溟智算是由我院自主研发的SaaS化一站式算力管理平台,以高性能智能计算、人工智能计算、大数据处理等软硬件为基础,可面向各类大中小型机房提供算力托管、租赁服务。


平台目前已支持硬件资源托管、实例虚拟化、集群快捷搭建、Slurm任务等云算力基本功能,后续将持续迭代开发,陆续上线算法模型工具链、大模型快捷部署、大规模并行训练等功能及解决方案


北溟平台首页


北溟智算:平台概述

北溟智算目标为“打造面向高校科研环境的一站式算力资源管理及算力资源租赁平台”,将算力资源和云资源结合管理,实现了多样性算力资源统一纳管和统一调度,支持多维度的算力调度策略,可为业务提供最优算力资源供给。


※  面向对象 

  • 算力资源提供者、使用者

  • 专业课题组管理人员

  • 专业机房的运维人员

※  资源形式 

  • 高性能计算集群

  • GPU/CPU集群

  • 服务器

  • 个人主机 

※  平台优势 

  • 支持面向算力提供者的算力资源托管

    标准化托管流程、可视化资源管理

  • 支持面向内部及外部用户的算力使用

    支持虚拟化个人实例、GPU/CPU公共集群

  • 支持闲散算力的汇聚、使用

    多元资源形式、互联互通、资源共享


北溟智算:平台展示

北溟智算当前处于内测阶段,内测版本支持以机房为单位的算力资源管理,管理员在物理机上通过键入命令实现将算力资源托管至平台机房中。机房用户可通过平台在资源节点上创建个人实例,通过ssh连接使用实例等等。

节点管理页面

资源总览页面(用户视角)

添加实例

个人实例页面


北溟智算:核心优势

核心技术1-算力资源托管

▪上传完毕数据后,在“项目列表”页面新建项目,选择对应数据集并点击发起训练。

▪每个物理机只能被一个ControlNode托管,而平台用户对此是无感知的。

▪控制节点可能负责资源分配、任务调度、监控等管理功能。

▪业务节点(BusiNode)为平台用户提供可视化的服务。

▪业务节点可能涉及到用户界面、业务逻辑等方面的服务。

算力资源托管架构


核心技术2-虚拟机

▪基于qcwo2格式镜像文件,支持伸缩配置(主要包括cpu,内存,显卡),磁盘空间只支持动态扩展,修改root密码

▪采用vxlan多播技术实现同一网段跨node直接互通;

▪一个用户一个网段(用户数量有上限),虚拟机网络隔离;

▪采用socat端口转发技术,通过master转发远程登录虚拟机;

vxlan多播架构


核心技术3-Slurm公共集群

▪模型部署完毕后,即可通过API在线调用,获取模型识别结果。

▪后台管理人员创建;

▪head,workstation和cpuN扮演角色;

▪集群中所有节点通过nfs挂在9000存储,确保所有用户的文件在节点中都可以查看;

▪所有节点上的账号都依托openLdap,保证集群节点账号信息一致;

▪通过uid和gid进行统一的集群权限管控;

▪通过uid和gid隔离不同用户之间的文件夹,确保数据安全。

Slurm公共集群

2024年5月,北溟智算正式上线1.0版本,即日起邀请广大机房用户内测。具体请联系:林璐 15857189381(微信同号)。


北溟智算平台网址:https://bm.zjuici.com/


关注并标星

了解研究院最新动态

如果您希望经常收到我们的文章,记得点赞/在看

浙江大学计算机创新技术研究院
浙江大学计算机创新技术研究院由浙江大学举办,秉承“国之大者”使命,聚焦新一代人工智能技术,凝聚高层次人才、发展高水平科研、建设高质量生态,建设具备引领地区生态快速发展能力的人工智能生态高地。
 最新文章