凯恩斯经济学中的“乘数效应”为我们揭示了一个重要的经济原理:初始的投资或消费变动,会通过经济系统中的连锁反应,引发经济总量成倍的增长。
AI时代,算力正在成为推动经济增长的关键力量。算力投资就如同“乘数效应”里描述的那笔初始投资,有着激发经济产出巨大增长的潜能。中国信通院的测算结果也印证了这一点:算力每投入1元,将带动3-4元的经济产出。IDC的研究报告则指出,算力指数平均每提高1个点,国家的数字经济和GDP将分别增长3.6‰和1.7‰。
不过,算力投资要真正发挥出“乘数效应”,其关键在于确保已部署的算力基础设施能够得到高效且充分的利用。当前,我国众多数据中心面临着一个严峻的现实:服务器的算力平均利用率仅徘徊在5%-10%之间,远低于理想水平。而炙手可热的智算中心中,集群MFU(模型AI算力利用率)普遍也只有30%左右,达到40-50%已经属于优秀水平。
从投资回报率、设备折旧等因素考虑,如何在GPU的生命周期内发挥其最大价值,成为每个智算中心或企业AI集群运营中必须正视并克服的核心挑战。这不仅关乎到资源的优化配置,更是实现算力投资可持续回报的关键所在。
本期的《数智QA》,我们就从在智算中心处于主导地位的GPU加速器角度出发,聊聊如何通过提高GPU的利用率,让企业的算力投资实现“乘数效应”。
如何才能提高服务器GPU利用率?
Graphic Processing Unit
Q
提高服务器GPU利用率需要从资源管理、任务调度、模型与训练优化、并行计算与加速、硬件与软件优化以及监控与调整等多个方面入手。近年来,GPU虚拟化技术的出现,使得企业可以更加灵活地管理和分配GPU算力资源,显著提高了GPU利用率。
传统虚拟化环境中,每个虚拟机通常只能分配到一个虚拟的GPU。而通过GPU虚拟化,可以将物理GPU的资源分割成多个虚拟GPU,也就是vGPU,每个虚拟机或用户都可以获得独立的GPU资源,从而提高了整体的计算效率。GPU虚拟化技术的广泛应用,也让企业能够以更加简单、高效的方式构建IT基础架构,在运行AI训练、推理、模型精调、桌面虚拟化等应用时,可以更加充分利用算力资源。
GPU虚拟化有哪些优势?
Graphic Processing Unit
Q
优化并提升资源利用率:GPU虚拟化技术实现了对物理GPU资源的高效分割与精细管理。这一技术不仅使得资源的利用率得到了显著提升,更允许在多个用户或虚拟机之间共享同一块GPU,从而最大化地发挥资源的价值并提升系统整体性能。
实现高度灵活的部署与管理:GPU虚拟化技术让智能算力可按需分配、灵活部署。用户可以根据实际需求,轻松调整虚拟GPU的数量、性能等参数,以满足不同应用场景的需求。这种灵活的部署方式,不仅提高了资源的利用率,降低了系统的复杂性,还为用户带来了更加便捷、高效的使用体验。
确保安全可靠的隔离环境:GPU虚拟化技术通过构建虚拟环境,实现了每个用户或虚拟机资源之间的严格隔离。这种隔离机制不仅有效避免了应用、任务的干扰和冲突,还为用户的数据和应用程序提供了全方位的安全保护,从而确保系统的整体安全性与稳定性。
GPU虚拟化技术会在哪些地方大放异彩?
Graphic Processing Unit
Q
AI及云计算:GPU虚拟化技术让算力供应商能够以前所未有的效率,在云端平台上实现物理GPU资源的灵活共享与分配。这一技术不仅极大地提升了云服务的运算能力,更为用户提供了高度可定制、按需获取的数据处理能力。对于那些在AI训推、科学计算、机器学习、虚拟现实以及游戏开发等前沿领域深耕的用户来说,GPU虚拟化技术无疑成为了他们提升工作效率、加速项目进程的重要利器。
虚拟桌面(VDI):企业级应用场景中,GPU虚拟化技术正逐步改变虚拟桌面的使用体验。通过这一技术,多个虚拟桌面用户能够同时享受到图形加速带来的流畅操作与视觉提升,无论是复杂的图形设计、精密的工程设计,还是高清视频编辑,都能得到丝滑般的图形界面与应用程序体验,极大地提升了设计师的工作效率与创作激情。
科学研究:通过构建虚拟化运算环境,研究人员能够充分利用虚拟GPU的强大并行计算能力,对复杂的科学模拟、庞大的数据分析以及计算密集型任务进行高效处理。这一技术的引入,不仅极大地缩短了科研周期,提高了研究效率,更为科学探索的深入与拓展开辟了新的道路。
当然,实际应用中,GPU虚拟化的应用场景远不止这些。随着AI技术的落地应用及普及,GPU虚拟化技术正发挥越来越重要的作用。
现有GPU虚拟化技术应用过程中面临哪些挑战?
Graphic Processing Unit
Q
当前,GPU虚拟化技术的实现大多构建于操作系统层级之上,并通过用户态来执行相关算法。这种设计在特定的AI计算应用场景下展现出了显著的优势,能够高效地利用GPU资源来加速计算任务。然而,当我们将目光转向更为复杂且日益普及的多租户、多容器环境时,这种基于操作系统层面的GPU虚拟化方法便暴露出了三大劣势。
首先,在多容器环境中的应用性能波动大,用户体验没有保障。在窗口中运行的应用程序往往会调用各种GPU库函数来执行计算任务。然而,由于操作系统层面的GPU虚拟化算法无法对这些库函数的执行进行精细化的控制,导致在多个容器同时运行时,GPU资源会出现无序的抢占现象。这种情况会导致应用程序的性能出现大幅度波动,严重影响用户的使用体验,使得服务的稳定性和可靠性大打折扣。
其次,GPU等待并产生额外性能开销。当操作系统层尝试调度GPU资源时,需要执行一系列复杂的算法来确保资源的合理分配。这些算法的执行不仅增加了操作系统的负担,还可能导致GPU在等待调度决策的过程中产生额外的性能开销,成为制约系统整体性能的瓶颈。
最后,虚拟化粒度粗造成资源浪费。操作系统层面的GPU虚拟化算法通常只能实现粗颗粒度的虚拟化。这意味着每个虚拟GPU都会占据物理GPU一定比例(通常是10%以上)的算力。实际应用中,许多子任务并不需要如此庞大的算力资源。当任务所需的GPU算力远低于10%时,剩余的算力将被白白浪费,无法得到有效利用。
联想在GPU虚拟化应用方面有哪些突破?
Graphic Processing Unit
Q
为解决在多租户、多容器环境中GPU虚拟化面临的挑战,联想与合作伙伴一起,不断在GPU驱动层的GPU内核态虚拟化算法等方面进行技术创新,逐步减少虚拟GPU的算力损耗。目前,联想已经将GPU虚拟化的效率提升到逼近95%,在算法并行度极高的极致情况下,效率可达99%以上。
这一成就的背后,是联想在算法层面的三大革命性突破。首先,联想研发出了一种能够实现对算力和显存进行精准隔离的算法。这一算法以小于3%的误差,来精确控制容器资源,确保了每个虚拟GPU都能获得所需的计算资源和显存空间,从而避免了资源的浪费和冲突。
其次,是在GPU驱动层面进行资源调度优化。通过去除驱动层之上那些不必要的操作,联想成功地简化了资源调度的流程,提高了调度的效率和准确性。这一举措不仅减少了系统的开销,还进一步提升了虚拟GPU的响应速度和运算效率。
最后,联想还在GPU驱动层将虚拟GPU的颗粒度精细到1%。这一创新使得虚拟GPU能够更加灵活地适应各种应用场景的需求,无论是大规模的数据处理还是精细的图像渲染,都能得到完美的支持。
联想GPU内核态虚拟化技术在哪些方面得到落地应用?
Graphic Processing Unit
Q
联想GPU内核态虚拟化技术突破,大幅提升了智算中心、集群的算力利用率,让企业的算力投资充分发挥“乘数效应”,赋能经济高质量发展。
也正因为如此,在今年四月正式推出的联想万全异构智算平台,就内置了GPU内核态虚拟化技术。该技术与算力匹配魔方、联想集合通信算法库、AI高效断点续训技术、AI与HPC集群超级调度器等一起,构成了联想万全异构智算平台的五大创新技术。
目前,联想万全异构智算平台已经升级到V1.5版,为行业用户带来全新的智能计算体验。作为联想AI基础设施“一横五纵”战略的核心,联想万全异构智算平台目前已在科研教育、金融、云计算等领域落地应用。
以某大学未来技术学院智算中心项目为例,联想万全异构智算平台统一纳管异构算力,充分释放AI基础设施生产力。特别是在资源管理及优化方面,联想GPU内核态虚拟化技术通过精确的GPU算力切分与隔离,以及调度优化,解决了传统数据中心算力资源孤立问题,在多用户、多任务环境中大幅提升了GPU利用率,获得了用户的高度认可。
正是借助包括GPU内核态虚拟化在内的技术创新和落地实践,联想万全异构智算平台在多项行业评选中脱颖而出,分别在HPC China以及中国算力大会上获得“产品创新奖”、“算力中国·年度重大成果” 等多项殊荣。
推荐阅读