HPC 集群可以快速完成复杂计算,支撑模型仿真、数据分析等应用的高效运行,提高业务的创新速度,缩短产品上市时间。
在很长的一段时间内,企业为了最大化提升市场竞争力,在传统的 HPC 集群上保持着不菲的资金投入,包括扩大集群规模、采购最新设备等方式。
当前,如何在保障业务创新速度的同时,优化 HPC 集群的使用和运营方式以便减少资金投入,成为企业关注的重点。
1 全栈 HPC 解决方案
百度智能云的云高性能计算平台 CHPC(Cloud HPC)为企业提供了一套覆盖「混合云 – 资源 – 管理 – 应用」全栈 HPC 解决方案,提升业务计算速度,优化集群使用效率,降低资源使用成本。
1.1 混合云 HPC 集群
在传统的 IT 投资思路下,企业通过自建 HPC 集群满足业务需求,这导致了巨大的设备采购、维护和更新成本。
百度智能云的 CHPC 提供了混合云 HPC 集群能力,可以帮助企业统一纳管本地和多云 HPC 集群。
企业可以将最关键的任务提交至使用最新一代硬件资源的云上 HPC 集群中,使得这些应用处于最佳运行状态。同时,将涉密的任务部署在本地 HPC 集群中,确保商业秘密的安全。
同时,CHPC 提供了云上云下资源的实时监控和报表统计能力,为优化整体资源配置和提升运行效率提供数据支持,保证资源利用最大化。
1.2 最新一代计算资源
目前, CHPC 可提供搭载最新 AMD 第四代 EPYC 处理器 Genoa 的全新计算实例,单实例最大支持 192 物理核心;同时,提供搭载 Intel 第五代 Xeon EMR 系列处理器的计算实例,主频不低于 3.2GHz。此外,CHPC 还可提供最大 3TB 内存的大内存型实例规格,帮助求解计算中的隐式算法提高计算性能。
1.3 动态调度与弹性伸缩
1.3.1 任务动态调度
1.3.2 资源弹性伸缩
在实际生产过程中,集群中承载的任务数量以及所需的资源,会随着项目的发展不断变化。如果在项目初始阶段就提前购买满足业务高峰期的资源,直到项目结束再全部释放,或者通过运维工程师手动的进行资源和任务的适配,都会产生不必要的资源浪费,增加项目成本。
1.4 应用性能优化
生命科学行业的企业 A 采购部署了本地 HPC 资源。虽能满足日常科研工作,但在对外交付的项目中经常出现大量的短期算力需求,本地 HPC 的资源规模难以确保项目如期交付。
企业 A 借助百度智能云的 CHPC 构建了覆盖本地集群的混合云 HPC 方案,确保资源需求的高峰期自动扩展云上资源,并借助经过 Btune 性能调优过的开源应用程序,加速高通量基因测序和深度分析等任务,加快科研成果产出。
同时,在任务运行完成后,企业 A 将存储在对象存储 BOS 中的业务结果数据一键同步至百度网盘分发给下游客户,不仅为企业 A 节省了对象存储的流量费用,还提升了下游客户的业务体验。
2.2 工业制造
汽车行业的新势力企业 C 基于本地 IDC 建立了包括百度智能云、第三方云的混合云 HPC 方案,为任务匹配最佳的计算资源,让车企 C 的旗舰车型能够更快地完成从概念验证到产品上市过程。
为了管理庞大的 HPC 集群,企业 C 的管理员基于混合云提供的全局资源管理和任务动态调度的能力,结合云上云下资源的实时监控和报表统计功能,实现了资源效能的最大化。
同时,系统管理员需要使用复杂的命令对 HPC 集群进行操作。为了进一步提升管理效率,百度智能云将集群管理的命令操作统一到 CHPC 控制台,支持可视化操作,提升管理员的资源管理效率。
百度智能云的高性能计算平台 CHPC 为传统的企业级 HPC 带来了新的玩法,提供混合多云集群、公有云的弹性资源、集成行业特点的工具和应用、性能优化等。目前,CHPC 已成功落地于工业制造、生命科学和教育等多个行业,帮助企业降低成本,快速应对市场需求,提升竞争力。