面对AI大潮,如何建成AI数据中心,让企业AI战略落地?

文摘   2024-09-11 17:17   中国台湾  
点击蓝字
关注我们

    过去两年,人工智能进入井喷式发展状态,也对数据中心提出了前所未有的挑战。比如,现代AI应用需要更高的计算性能以支撑复杂模型的训练,需要海量的数据存储能力以容纳爆炸式增长的数据量,需要极低的延迟以确保用户体验,需要更高的制冷能力来保证机架和数据中心的温度不至于过高等,这些是传统数据中心在设计之初没能充分预见到的。


    面对一浪高过一浪的AI大潮,无法满足挑战的传统数据中心向AI数据中心的升级转型已是势在必行。针对新的市场需求,戴尔科技在今年5月举行的全球技术大会(DTW)上正式发布了AI First 全栈技术战略蓝图,同时推出了多种预验证的解决方案、参考架构和咨询服务,以降低AI 应用落地的门槛,缩短AI项目落地时间,帮助企业快速搭建AI平台,实现智能化转型。


参考 AI First 的技术战略蓝图

加速AI应用落地


    要上AI项目,大多数人第一个想到的可能是要买GPU。其实部署 AI 应用并不只需要 GPU、也不是只有算力,而是要围绕以数据为核心的理念去全面思考、去构造一个全面的解决方案。其中除了 GPU、CPU还有网络、存储以及上层应用和管理,还有数据中心的基础设施。因此,要让AI应用顺利落地创造商业价值不是一件容易的事情。此时如果有一个经过验证的整体设计方案,无疑可以最大程度地简化AI平台的搭建、降低AI应用部署难度。这也正是戴尔科技发布AI First 全栈技术战略蓝图的目的。






    “戴尔科技AI First 技术战略目的就是希望帮助企业快速补齐所需要的各种能力,最终能像流水线批量生产工业制成品一样大规模、低成本地输出基于AI 的业务能力,并提供足够的业务弹性。” 戴尔中国 AI 解决方案技术架构师吴跃表示。


    他介绍,戴尔科技AI First 的技术战略蓝图主要包括五个组成部分:基础架构、数据、服务、生态系统和用例场景。


     1.AI基础架构。同前几年经典的深度学习技术相比,如今主流的 AI 算法模型在参数规模提高了 10到1000 倍,更大的AI模型训练和推理需要更高的AI算力、更强的存力和更快的网络。


    针对基础架构,戴尔科技提供包括计算、存储、网络和数据保护在内经过验证的全栈的AI基础架构解决方案。这个解决方案建立在戴尔科技全面领先的各种产品之上,在今年一季度 Forrester AI 基础架构解决方案的技术报告中,戴尔科技被列入到领导者象限。在目前全球知名度最高的 AI 计算性能基准测试MLPerf基准测试中,Dell PowerEdge XE9680 8卡GPU 加速服务器取得了5个数据中心项目赛道的第一名。


    另外,戴尔全球 AI HPC 创新实验室一直在持续跟进 AI 的前沿技术以及面向 AI 各个应用领域的 AI就绪解决方案的设计,包括 AI 模型的预训练模型、微调模型、推理、向量数据库、机器视觉等领域,以保证产品和方案的领先性。






    2.数据。随着模型参数规模的快速发展以及 AI 业务场景日益复杂,AI所需要的训练数据规模也在成倍增长,这就要求设计更完善、可扩展性更好的 AI 数据存储与管理平台以及更加完善的数据保护机制。


    戴尔科技的PowerScale 存储解决方案拥有超过 20 年的非结构化数据存储产品的研发历史,可以充分满足海量数据的存储需求,而DTS解决方案则可为AI算法模型和关键数据集提供可靠的数据保护。


    3. 服务。戴尔科技的服务团队正在紧跟 AI 技术的发展趋势,为客户提供与 AI 相关的咨询与实施服务,包括AI数据中心的建设规划、AI计算资源虚拟化与池化、AI模型的检索、增强生成服务RAG等。


    4. 生态。在生态方面,戴尔科技正联手全球及国内在 AI 硬件平台、软件及行业应用领域的领先合作伙伴,共同为企业用户打造场景化的AI就绪解决方案,帮助用户更加稳妥、快速地实现 AI 的场景化、工程化落地。


    5. 用例场景。基于上述4个方面的能力,戴尔能够和合作伙伴以其打造AI平台,支持各种各样的业务场景方案,如知识问答、代码生成、数字助理、计算机视觉、数字孪生等等。


    “行业用户透过 Dell AI First 的技术蓝图提供的解决方案、参考架构和咨询服务,可以降低AI 应用的技术门槛。”戴尔中国 AI 解决方案的技术架构师吴跃表示。


    吴跃提醒,企业在真正开始AI项目之前一定要制订自己的AI战略,这是决定AI项目的关键。根据第三方的研究报告,虽然对于 AI 技术的投资和重视程度在快速提升,但很多企业 AI 应用其实并不太成功,缺乏有效的AI战略是一个重要原因。


    在制订AI战略的过程中评估和挑选适合企业应用的 AI 业务场景是事关AI 战略是否成功的关键要素。为了帮助企业更好地制订AI战略,戴尔科技今年推出了一种名为Dell AI discovery workshop 的增值服务,由专家和用户一起来评估AI用例。


构建现代数据中心

为AI全生命周期提供充分支持


    AI基础架构只是AI应用落地的一个环节,AI相关软硬件要能在数据中心部署,真正转化为生产力,对数据中心也有很高要求,而传统数据中心并非为数据驱动工作流而构建,这些要求统数据中心通常满足不了。因此,不少AI项目的落地还会伴随数据中心的升级——从传统数据中心升级为AI数据中心。


    而AI应用负载不同,其对数据中心的要求也有很大不同,比如说以模型训练为主的AI负载对电力需求比较大,需要大量的电力以及相应的冷却设备,但对延迟要求较低。而推理类的AI负载对电力和冷却设施的要求会相对比较低,但对于延迟的要求会比较高。因此,在升级之前需要对数据中心将要承载的工作负载进行评估,以确保未来在电力供应、制冷、网络以及空间等方面满足AI应用需求。





    戴尔科技集团企业级解决方案拓展经理龚小愿介绍,要建设一个AI就绪的数据中心主要四个方面的考虑:


    第一是数据中心的大小和空间分配。AI服务器通常机身更大。比如,传统服务器可能常见1-2U,而AI服务器经常有6U,因此要占用更多的空间。在服务器机架的设计上就要考虑更大尺寸服务器的摆放需求,同时还要考虑气流的优化和维护,确保能有高效的通风。


    第二是电力供应和冷却方式。AI服务器由于采用多个GPU卡,功耗要远超常规服务器,比如戴尔旗舰AI服务器XE9680 功率高达8.4千瓦,而传统服务器可能不足千瓦。在电力供应和制冷能力上都需要特别考虑,如果风冷无法达到制冷要求甚至要采用液冷,尤其是对那些计算密集型的AI工作负载,以确保系统稳定以及延长使用寿命。


    第三是线缆的复杂性以及布局方式。线缆的布局和架空方式与散热有关,不好的布局可能会妨碍气流流通,在局部区域形成热点,威胁AI系统可靠性。


    第四是包装成本和物流成本。在数据中心的建设中涉及大量设备,最大限度地去减少浪费,并降低成本,减少对环境的影响。


    在这些评估中,冷却方式的评估尤为值得一提。大量大功率的AI服务器大大提高了数据中心的热密度,也导致对制冷能力提出更高的要求,液冷成了必须的选择。






    针对数据中心对制冷的需求,戴尔科技提出智能冷却技术,能支持更高的机架密度,提高散热效率,降低PUE值。龚小愿介绍,戴尔的智能冷却方案提供从风冷到液冷多种技术组合。比如,在液冷技术方面提供冷板式液冷和浸没式液冷解决方案,能够满足从5千瓦到 200千瓦以上功率密度的制冷需求。


    龚小愿说,戴尔智能冷却技术还有一个特点是坚持开放和标准化。这就意味着可以兼容其他供应商的产品,从而给用户充分的选择权,帮助用户降低成本。


携手生态

更好满足客户需求


    在戴尔科技的AI First技术战略蓝图中,生态是非常重要的一环,戴尔科技致力于构建广泛而且开放的AI合作伙伴体系,共同满足客户的需求。


    在众多合作伙伴中,英伟达是比较特殊的一个。这不仅在于英伟达是全球最主要的AI芯片供应商,还在于戴尔科技与英伟达开展了非常深入的合作,是戴尔科技构建 AI First 解决方案体系的全球战略合作伙伴。


    在今年的戴尔科技全球用户大会上, 戴尔科技与英伟达联合推出了 AI First 就绪解决方案,它包含戴尔科技面向AI的计算、存储、网络、数据保护、基础设施硬件解决方案,以及英伟达 AI 开发训练与推理部署的全栈式AI软件套件 Nvidia AI Enterprise。英伟达这个套件中包含GPU虚拟化软件、经过英伟达优化的 AI 框架软件、大模型部署框架 NeMo、AI 推理的微服务框架NIM、 GPU 集群管理软件 BCM 等。这个套件目前已经可以由戴尔科技提供销售和部署实施服务。




    在与英伟达联合推出的解决方案中,戴尔科技除了提供基础设施外,也在资源调度和管理等方面贡献了自己的智慧。比如,过去面向 AI负载的GPU分配以裸金属最为广泛,但以物理 GPU 卡为粒度的裸金属调度方式存在着利用低、复用难的问题。戴尔科技提供的AI GPU算力池化解决方案支持对英伟达全系列GPU卡的任意切割与资源池化,大大提高了GPU的利用率。


    除了英伟达,戴尔科技还和AI模型平台开展合作。比如,戴尔科技与Hugging face开展了合作,在Hugging face上建有戴尔科技专有的模型镜像仓库,这些模型的镜像经过戴尔科技技术团队的预验证,适配戴尔科技的所有GPU加速服务器,用户完全不用担心兼容性问题。


    在中国市场,戴尔与OpenCSG也有合作,在戴尔科技的基础设施硬件平台上部署Open CSG 的模型托管平台与模型应用平台,戴尔科技提供端侧与云侧一体化的模型托管平台解决方案。


    另外,戴尔科技的咨询服务团队还联手中国的合作伙伴一起为国内客户提供各种落地的AI解决方案。比如,结合向量数据库通过RAG技术构建企业内部的知识库,通过AI语言模型实现人机对话。


结束语


    当前,人工智能技术方兴未艾。早日拥抱人工智能,快速实现智能化转型是企业共同愿望。然而,由于AI技术的复杂性、AI场景的多元性,再加上人员技能上的不足等原因,使得很多企业的智能化之旅并不顺利。


    戴尔科技的AI First 的技术战略蓝图的首要价值是给企业“打了一个样”,让企业能看到AI Ready的数据中心、AI Ready的技术平台是什么样。在此基础上,企业还可以通过参考和利用戴尔科技预验证的解决方案,快速完成AI数据中心和AI平台建设,更快速看到AI项目成果,借助AI让企业的业务发展上升到新的台阶,为自己的智能化转型赋能。














END















CBI科技在线
CBI科技在线 的前身《电脑商情报》是创立于1992年3月的IT传媒。旗下CBINews.com是企业级IT渠道垂直网站。我们致力于为您提供企业级IT市场的渠道新闻资讯和原创深度报道。
 最新文章