在数字经济与人工智能迅猛发展的当下,算力已成为推动技术创新和商业应用的核心要素。然而,尽管算力资源持续增长,依然存在大量算力未被有效利用、甚至被闲置和浪费的现象。
本文将从多个维度深入分析造成这一现象的根本原因。
供需错配导致算力利用不足
近年来,在通用算力中心、超算中心等算力设施已具备一定规模的基础上,为满足日益增长的智能算力需求,我国各地相继建设了大量智算中心,显著增加了算力资源的供给。然而,尽管资源数量大幅提升,仍有大量算力资源未能得到充分有效利用。这一现象的根本原因在于算力供给与需求之间的错配,具体表现在以下几个方面:
供给过剩与需求波动性
算力需求通常具有显著的波动性,许多场景中的需求呈现突发性和短期激增的特征。例如,大型电商促销、节假日活动、AI模型训练等任务会在特定时期大幅增加对算力的需求,而在其他时段需求较平稳或较低。由于这种需求波动,算力资源的供给往往难以精准匹配。
虽然云计算平台具备一定的弹性扩展能力,能够根据需求动态分配资源,并理论上可以迅速响应需求高峰,但在实际操作中,云平台的扩展受到预设资源配置和网络带宽等因素的限制,导致在需求激增时,扩展可能存在响应滞后,无法完全满足极端需求。
另一方面,超算中心和传统数据中心的资源配置通常依据长期需求规划,因此它们在应对短期需求波动时缺乏灵活性。尽管智算中心在资源配置上更注重灵活性和短期需求响应,但由于其基础设施建设多基于初期规划,仍然受限于现有设施,难以迅速调整以应对短期需求波动。在低需求时段,特别是在周期性任务集中的场景中,算力资源可能得不到高效利用,造成闲置。
结构性缺失加剧供需不平衡
供需错配进一步导致算力资源在某些特定场景或区域内存在结构性缺失,影响了算力资源的有效利用。结构性缺失主要体现在以下几个方面:
场景适配问题与算力分配不合理
算力需求的错配不仅表现在供给和需求的量化差异,还表现在资源分配与实际使用场景之间的匹配度较低。不同应用场景对算力的需求各不相同。例如,边缘计算、物联网和大规模AI推理等场景,通常要求低延迟和高实时性,要求算力资源既具备强大的计算能力,又尽可能接近数据源,以降低响应延迟。然而,目前许多算力中心,特别是大型集中式数据中心和超算中心,主要依赖远程集中的计算资源,难以灵活满足这些对分散性和实时性要求较高的需求。
在这种背景下,算力资源的供给与需求之间的匹配度较低。超算中心往往专注于复杂的长期计算任务,如气象预测、基因组学分析等,这些任务计算量大且持续时间长,适合固定和集中的资源配置,但对于需要快速响应的短期任务,缺乏灵活性,难以高效利用。因此,尽管在一些领域(如科研、金融分析)算力资源得到了较好的应用,在其他高需求波动场景中,资源配置和使用却往往无法达到最佳效果。
相比之下,智算中心在一定程度上更注重灵活性和短期需求响应,尤其在支持人工智能、大规模模型训练等高计算需求的场景中。然而,智算中心的资源调度和配置仍面临挑战。尽管智算中心为大规模AI推理和训练任务提供了专门优化的资源,但其资源调度通常依赖传统的需求预测方法,使得在面对快速变化的需求时,特别是在需要高实时性和低延迟的应用场景中,资源调度可能无法达到最优效果,进一步加剧了算力资源的低效利用。
资源过度集中与地域性差异
我国的算力资源分布仍然存在显著的地域性差异。在一些一线城市和经济发达地区,算力资源的需求较为密集,而在一些偏远地区,需求则较低。尽管智算中心、超算中心等算力设施在全国范围内有所布局,但其建设和资源分配通常侧重于重点区域,导致资源配置与实际需求之间的地域差异加剧。
这种地域性差异进一步加剧了算力资源的闲置现象。在某些地区,由于地理位置、政策限制或基础设施不足,算力资源未能得到有效利用,尽管这些地区的算力需求较低。而在其他需求较高的地区,算力资源则过度集中,且可能无法在短期内响应高峰需求,造成资源浪费或无法及时满足实际需求。
算力需求的培育阶段与错位现象
目前,许多企业的算力需求尚处于培育阶段,特别是在中小企业和一些传统行业中,这些企业的业务模式尚未高度依赖大规模算力资源。一方面,他们的业务性质决定了算力需求不够稳定或未达到需要高算力支持的层级;另一方面,一些企业对算力资源在自身业务中的潜在应用和效益还不够熟悉或依赖度不足。因此,算力资源的快速供给增长与实际需求的形成速度之间存在错位。逐步激发企业在AI、数据分析等领域的算力需求、提升其算力利用意识,还需要市场引导、行业教育和资源整合等措施,以实现供需匹配的优化。
算力资源碎片化
在当前的算力生态中,算力资源碎片化问题尤为突出。算力资源碎片化是指算力资源在不同类型、平台和地域之间分散,缺乏有效的整合与共享机制,导致资源无法高效配置与利用。这种碎片化现象使得大量算力资源无法根据需求进行整合或动态调度,进而限制了其潜力的最大化。具体表现为以下几个方面:
平台碎片化
目前,许多云服务提供商、数据中心和边缘计算设备之间的算力资源并未实现无缝对接和高效调度。各大云平台通常使用不同的技术架构和管理体系,这使得资源整合和共享变得困难。例如,一些大型企业内部可能在低负载时拥有大量闲置的算力资源,但由于缺乏有效的共享机制,这些资源并未得到充分利用。同时,中小企业、科研机构或区域性项目往往难以通过合适的渠道,以合理的成本获取这些闲置资源。由于缺乏跨平台协作机制,闲置资源和需求之间的匹配变得困难,造成资源浪费。
目前,随着“云原生”技术的逐步普及,一些云平台已经开始推动多云平台的协同和标准化,逐步在解决跨平台资源获取和分配的瓶颈问题。
标准化不足
算力资源的标准化程度较低,不同算力服务提供商采用各自不同的技术标准、接口和管理协议,导致资源在不同平台之间的互操作性差。这种标准化的缺乏,限制了算力资源的高效共享与调度。例如,某些云服务平台可能采用特定的硬件架构或软件环境,而其他平台则可能使用完全不同的技术栈,增加了跨平台使用的难度和成本。标准化不足不仅影响了资源的高效调配,还使得跨平台迁移变得更加复杂,从而阻碍了算力资源的灵活利用。
任务与资源调度碎片化
由于算力资源的碎片化,不同的任务和应用场景通常需要根据其特性选择最合适的资源。然而,资源的分散和碎片化导致任务调度系统难以精准地调配资源,许多任务未能获得最佳的资源支持,导致资源的低效利用。资源无法在任务需求之间灵活分配,进而影响了算力的整体调度效果和性能。
技术瓶颈与管理不足
算力资源的高效利用依赖于先进的技术支持和科学的管理策略。然而,当前在以下几个方面存在显著不足:
资源管理技术滞后:一些算力平台在资源分配、任务调度和负载均衡等方面的技术发展滞后,无法动态、智能地优化算力资源的使用。例如,AI和高性能计算(HPC)任务的资源需求复杂且波动性强,现有调度算法难以应对多任务、多负载的动态环境,导致资源利用效率低下。
调度优化不足:算力任务的调度通常缺乏高效优化机制,导致资源利用率难以提高。以GPU资源为例,尽管AI训练和推理任务对GPU需求量很高,但在实际应用中,如何在大型算力集群中灵活分配并高效利用GPU资源,仍是一个亟待解决的技术难题。
负载预测不精准:算力需求高度不确定,传统的负载预测方法难以准确预见未来的需求波动,导致资源调度反应滞后,无法做到及时调整,进而造成算力资源的浪费。
缺乏灵活的算力交易市场
当前算力市场缺乏一个灵活、透明的交易平台,导致算力资源难以在供需双方之间高效流转:
交易平台不足:现有算力市场中的主要资源由云计算大厂、超算中心和智算中心等主体主导,缺乏一个开放、透明的公共交易平台。中小企业和个人用户往往难以在市场中找到灵活且适配的算力资源,尤其是在不同主体之间,缺乏有效的机制来促进资源流通和交易。这导致许多算力资源在低负载时段闲置,但无法通过外包或二次交易的方式流通,造成资源利用效率低下并进一步导致浪费。
定价机制不透明:算力服务的定价机制尚未实现透明化和标准化,供需双方难以基于真实市场需求进行公平交易。这种定价不透明不仅抬高了小规模用户的成本,也妨碍了算力资源的快速流通和市场活力。
缺乏激励机制:现有市场中激励机制不足,无法有效鼓励资源共享和二次利用。算力资源所有者缺乏将闲置资源开放给他人使用的动力,导致潜在的算力供应无法充分流向需求方,进一步加剧了资源浪费现象。
关注我们获取更多精彩内容
往期推荐
● CDCC 2024数据中心标准大会盛大开幕 | AI七色光,照耀智算中心未来路