近日,青云科技 2024 AI 算力发布会成功举办,以 “无界算力,共创数智未来” 为主题,全面展示了青云在 AI 算力领域的产品创新、生态建设及场景落地成果。青云科技解决方案总监傅帅以 “十大场景,数智未来触手可及” 为主题,深入阐释了青云在金融、自动驾驶、具身智能、高校科研、生物医药等多个行业积累的丰富经验,以及针对各行业核心痛点所形成的十大智算解决方案。以下为青云科技解决方案总监傅帅的分享,经整理呈现。
从 2019 年起,青云便开始涉足智算领域。此前一直在默默耕耘,今天希望借此 AI 算力发布会的契机,与各位领导、生态伙伴以及线上观众分享青云在 AI 领域的方案与案例。
首先,从大趋势来看,AI 推理被广泛认为是人工智能发展的最终目标或形态。就国内目前 AI 的发展进程而言,更多的重心仍在训练阶段。因为只有拥有良好的模型,才能支撑优质的应用;而有了好的应用,才能在实际应用场景中落地。
此次青云发布的十大解决方案分为两个层级。一个层级面向算力,涵盖智算中心、大模型/多模态以及边缘智能方向,探讨算力如何实现。当具备算力之后,再思考应用和业务如何落地。在落地层面,既涉及传统行业如金融,也包括新兴场景如自动驾驶、具身智能,后者对 AI 的运用更加深入和硬核。
自去年起,全国各地都在思考是否建设智算中心。实际上,建设智算中心是必然趋势。AI 科学家屡获诺贝尔奖,这说明什么?这充分表明全球范围内 AI 是大势所趋,是不可逆转的。
有建设智算中心想法的机构或者个人找到青云后,首要关心的问题是:智算中心能否盈利?有哪些盈利方式?从青云的角度来看,能否盈利的背后隐含着许多非 IT 行业或未涉足过 AI 项目的参与者、投资者所不了解的因素。简单来说,过去我们常提到要建设数据中心,但从国内实际基础资源的角度来看,能够容纳千卡集群的数据中心屈指可数。如果要求更高,比如现在是千卡规模,明年要达到万卡规模,能支撑万卡集群的数据中心更是凤毛麟角。因此,如果关注智算中心能否实现商业闭环,其基础在于强大的计算能力。以 IDC 和 AIDC 为例,两者的差别主要在于电力。青云曾经在不同场合强调过,AI 是能源,没有充足的电力,智算中心就无从谈起。其次,AI 作为一个全新的计算领域,涉及算力、运力、存力等全新技术。这些新技术带来的挑战在于,目前还没有人能够在实际生产过程中大范围、长期地运用这些技术。技术方面的短板和未知,导致国内去年到今年上半年建设的智算中心,可能有一半都无法达到设计上的性能指标。原因在于不同技术、不同品牌的软硬件之间的配合存在诸多问题。那么,智算中心如何变现或产生价值呢?这需要工具和团队的支持。以青云为例,青云自 2012 年开始做公有云,从事与云服务相关的工作,引进一套系统和团队,才能将算力、存力和运力持续对外发挥作用,提供对外服务,从而产生实际价值,实现商业闭环。在去年下半年到今年上半年,青云落地了 20+ 智算中心,包括如何建设 AIDC、软件和硬件如何配套,以及建成后如何销售、推广和运营。青云提供这三方面的服务,以应对智算中心这一热门领域的需求。
除了智算中心,第二个话题是大模型/多模态。在国外,OpenAI、Meta 等纷纷发布大模型,且 Meta 在发布一个版本后,不超过一周又推出第二个版本。随后,Google 也发布了新版本。国内同样如此,上百家企业投身于大模型技术研发。这些大模型厂商对算力和数据的要求极高,且大模型领域竞争激烈,他们虽然多为创业公司,但体量庞大。青云为他们提供工单服务的人员经常在深夜收到支持工单。
大模型厂商、多模态厂商的核心资产是什么?一方面是各种参数量级的模型;另一方面是训练模型所需的训练数据集、推理时产生的生产数据。这些数据和模型是他们的核心资产。他们最为关心的问题只有一个,即如何保证数据和模型的安全。此外,这类用户通常处于高算力、高压力的使用场景,需要一个持续、稳定、可靠的平台,为模型训练提供保障。过去我们认为一个模型只需训练一两周就能投入使用,但实际上,与许多模型训练厂商交流后发现,模型训练就如同炼丹,同样参数在训练时效果可能不如训练前,但经过不断调整,下一版本训练时模型质量会更好。这是一个需要时间和效率去提升模型质量的过程。因此,平台业务的连续性非常重要,尤其是针对大模型、多模态的厂商,他们训练任务多、时间非常长、规模非常大,任何一个故障都会影响整个生命周期,会影响最终模型的效果。因此,对于大模型、多模态以及垂类模型这类客户,青云提供专属的算力专区或私有化的算力平台。专属算力专区和私有化平台从物理层面保障了数据的安全性和可靠性,同时通过软件平台提供持续、稳定、可靠的平台服务,为这类客户提供场景支持。
之前谈到了智算的趋势,现阶段 AI 以训练为主,未来则是推理。训练由中心端提供,具备千卡甚至万卡的算力能力。而产出的模型要真正应用于业务场景和应用场景,这些场景通常处于边缘侧。
以我们的金融行业客户为例,如今都在追求降本增效、提升效率。比如银行网点的智能化,通过边缘设备实现开户、办理信用卡等业务流程,不再需要人工办理。客户在银行网点通过带有摄像头的机器,与数字人进行语音或视频交互,完成整个业务流程。这是一个典型的在中心端进行训练、在边缘侧实现推理的金融边缘行业场景。在交通行业也一样,全省的高速公路、收费站、摄像头等都装有传感器。要实现整个流程的串联,需要对边缘设备进行统一管理。边缘设备种类繁多,有摄像头,有 ETC 之类的传感器,各种各样的架构。有的只能进行初步的简单推理,而有的新硬件设备则具备高级推理能力。因此,需要面向全国或一个大的省份、片区,对多种边缘设备进行统一管理。针对这些需求,青云可以提供 ”中心 + 边缘“ 统一管理的能力,对算力资源和网络资源进行统一纳管。同时,根据设备的不同算力能力,如摄像头具备一定的推理能力,而某些终端设备可能不具备高级的推理能力,我们需要使平台能够适配终端和边缘设备,以及平台上的应用。平台需要将不同的算力资源匹配到不同的业务场景,以实现算力资源的调度和协调。这就是青云在边缘场景的智算方案。
前面谈到了智算中心和边缘计算,这些都是相对新兴的领域。现在来谈谈传统领域,首先是金融行业。青云从 2014 年就开始与金融客户合作,推动数字化转型。当时还是 CPU 时代,青云就已经深入了解了金融行业对 IT 系统建设的要求、基础能力需求和基础框架设定。进入 AI 和 GPU 时代后,青云的产品基因已深深植入金融方案中。
例如安全合规方面,以及国家一直强调的国产供应链要求。在智算领域,如何保障智算中心实现硬件合规,是广大国产设备厂商需要努力的方向。青云则在算力平台本身,延续了企业云、分布式存储、容器云平台上对存储、算力和网络的安全保障能力,为金融行业用户提供符合安全要求的产品。金融行业最常见的交付方式是私有化部署。这涉及到两个方面的安全问题:一是产品能力是否可以根据用户情况做定制化交付和部署;
二是能否根据用户体量进行灵活调度。青云在金融行业探索时间较长,既有像四大行、股份制银行这样的大体量客户,也有各省的农商行、农信等中小规模客户。从规模上来讲有几百台、千台千卡的集群需求,同时也有 1-4 台的小规模。不论集群规模大小,青云都可以用一套平台实现多种规模的弹性部署,满足不同客户的需求。
如今谈到 AI,如果不提及自动驾驶和具身智能,就有点脱离行业了。在新兴领域,具身智能主要涉及机器人制造。在具身智能领域,我们观察到的客户诉求主要有两个方面:一是资源的极致利用,因为具身智能有较多场景定制,模型大小不一,对算力的需求也有多有少。同时,与大模型和多模态厂商一样,他们也非常注重数据的绝对安全。由于对数据安全的要求,他们通常不太接受云服务方式提供算力,而是以中小规模的算力云进行私有化部署。
二是由于新技术厂商竞争激烈,资源往往不足,任务总是超出预期。如何调整需求和任务之间的关系,也非常关键。青云通过一个平台的管理和调度策略,来解决匹配用户端的资源错配问题。此外,在具身智能领域,青云还可以根据用户的使用习惯,灵活调整平台相关能力,快速将用户在开发和产品迭代过程中的 GPU 和智算需求更新到平台中。
在生物医药的专业领域,人员配置通常是生物医药或者医疗专业的应用人才,其基础技术人员主要在上层业务端,对硬件、网络、存储只是一知半解。那么,生物医药企业也希望拥抱 AI,引入 AI 技术应用到行业,如何来实现呢?青云所推荐的方案有两个方面:
第一,采用 AI 智算一体机,将硬件和软件进行整合集成,统一交付给用户,让用户无需担心底层硬件架构和服务器配置,只需使用算力进行药物研发工作即可。
第二,在国产化方面,虽然国产化在金融和具身智能领域均有所渗透,但生物医药领域,更多平台仍建立在非国产化平台之上。借助 AI 进程,希望将国产算力和平台融入生物医药流程中。更重要的是,生物医药领域涉及很多专业应用软件,青云作为 AI 基础设施提供商,没有专业领域的应用软件开发能力。因此,通过平台的开放性和稳定性,整合更多面向生物医药领域的应用合作伙伴,为药物研发的合作伙伴或客户提供服务。
在高校和科研领域,AI 需求非常高。如果高校没有人工智能、模型训练和推理等相关课程,学生毕业后将面临很大挑战,因此高校一定会做和 AI 相关的事情。但高校也面临一个问题,即 GPU 算力资源价格高,而高校经费有限,无法花费大量预算采购海量算力服务。青云提供的解决方案有以下特点:
第一,青云精心打造的 AI 智算一体机,能够将硬件性能发挥到极致,同时具备极高的性价比。
第二,可以将所有算力资源,包括算力和存力发挥到每个算力因子,实现算力和存力的划分,满足教育教学需求。
第三,针对教学场景,通过青云 AI 智算平台的统一调度和管理能力,可以在一堂课结束后快速重建环境,服务下一堂教学或课题,实现资源的快速回收和发放。
第四,高校有很多历史留存的 IT 基础设施,包括 CPU 资源、传统虚拟化资源和高性能计算资源。通过青云的混合云能力,可以将这些资源进行整合和管理,实现统一平台、统一管理,根据不同业务需求调度不同算力,以支撑上层应用和业务。谈到自动驾驶,在场的各位如果是开车来的,很多人驾驶的可能就是新能源汽车。新能源汽车之所以受欢迎,原因之一是北京新能源不限号可以随便开,二是其技术能力,如市区的自动驾驶、自动领航功能,借助汽车本身的摄像头和软件能力实现。
在自动驾驶领域,数据非常重要,主要有两个维度:一是通过高精地图,二是通过纯视觉收集海量数据,包括地图数据和传感器数据,为自动驾驶算法的快速迭代提供支撑。因此,自动驾驶非常看重是否有海量数据的支撑能力。其次,自动驾驶是车路协同的过程,车和路之间的有效协同需要通过模型实现,而模型从中心产生。这就需要车、路和中心三者的有机整合,其基础是通过平台对海量数据进行全生命周期管理,在中心进行训练,在边缘侧进行推理,实现车与中心端的实时交互,以支持自动驾驶的快速迭代。有自动驾驶功能的新能源车,升级同步时会产生很多数据,从而支撑中心端进一步打磨模型。
在互联网领域,很多人都在尝试使用 AI。国内常用 kimi、智谱进行英文翻译或文档总结,国外可能更多使用 OpenAI 的 ChatGPT、Google 的 Gemini。互联网领域的 AI 应用面向 To C 端,最典型的特点是有潮汐分布情况,白天使用非常多,晚上资源相对空闲。因此,互联网需要较高的资源弹性和调度能力。
另一方面,互联网数据类型多样化。除了视频文件,还有大量图片文件、文本文件,以及其他非结构化文件,数据海量且存放方式多样。青云为互联网行业客户提供服务时,还可以提供多种存储服务,将各种形式的数据纳入青云智算平台。同时,提供削峰填谷的调度方案,白天发挥最大推理优势,晚上对任务进行编排,将有限的算力资源分配到不同任务中。
最后是政务领域。国内投资机构和地方政府建设了大量智算中心,分布在省、市、区县各级,规模有大有小。如何将这些中心算力有效运营起来,需要一定的工具。国家也看到了这方面的问题,提出东数西算和算力互联互通政策。
青云在设计 AI 智算平台时,考虑到了国家的要求和未来发展。首先,针对国产算力,到场的芯片厂商所有智算卡都已在青云平台管控范围内。同时,平台的对接能力能够统一纳管分布在全国各地各省、市、区县的算力中心。最重要的是,青云有持续可靠的运营团队和平台,持续探索政务行业智算中心产生价值的路径。总结一下,前面谈到了青云针对不同行业、中心以及细分领域的落地方案。AI 的三要素是算力、算法和数据,在此基础上,还应加上规模这一要素。规模可大可小,可以是中心端也可以是边缘端。在这个维度里,才涉及到 AI 基础设施。青云的基础设施从中心到边缘,从小规模到大规模,实现了 AI 全领域、全覆盖的能力。青云所做的工作是覆盖上层行业和场景,希望与到会的合作伙伴和线上合作伙伴一起,为中国百行千业的客户提供 AI 支持和服务能力。