AI大潮之下，我们需要什么样的数智底座？

文摘科技 2024-03-21 16:10 北京

在AI大潮的推动下，基础设施市场正在复苏。戴尔科技近期发布了截止于2月3日的2024财年第四季度财报，第四财季营收为 93 亿美元，环比增长 10%。戴尔科技业绩回升主要得益于AI优化的服务器业务的增长，本季度AI服务器订单增长了40%，积压订单近乎翻倍达到29亿美元，而前一季度仅为16亿美元。

戴尔科技的AI服务器业务增长是整个基础设施市场最新变化的一个缩影。去年以来企业对人工智能应用的热情不断高涨，ChatGPT、Sora的先后爆火更是为人工智能热火上加油，带动了对AI基础设施的强劲需求。为了满足这些需求，以戴尔科技为代表的基础设施厂商推出了不少创新的产品和技术来帮助企业拥抱AI。

AI应用普及推动基础设施升级

在过去的几年里，AI应用场景越来越丰富，智能化水平不断提升。一个明显的变化是，从过去集中在以图像识别、视频分析为主的感知智能逐渐扩展到以ChatGPT为代表的认知智能，文档检索、文档生成成为了新的主流应用场景，同时，以Sora为代表的多模态AI技术也开始方兴未艾。

蓬勃发展的生成式AI应用背后离不开底层基础设施的支持。以大模型的训练和推理为例。大模型的参数量已经从数十亿增加到几百亿、几万亿甚至更高，更大的模型带来了更大的AI算力需求。有数据显示，AI所消耗的算力平均每3～4个月就会增长一倍，而这部分增长的算力需求大部分将由GPU承担，这直接带动了异构计算的普及。

另一方面，计算规模越来越大，越来越多地通过集群来承载，万卡、十万卡GPU规模的数据中心也不鲜见。与计算规模扩大同时增加的还有网络通讯需求，让高带宽、低延迟网络交换设施成为AI系统的必要组成部分。

与此同时，新兴的AI应用对存储系统的要求也被提高了。功能更强、规模更大的算法模型需要搭配数量更多、质量更高、要更加多元化的训练数据才可能达到预期效果，否则很容易因训练数据不足造成模型欠拟合，而这意味着存储系统性能更高、更稳定，同时成本更低。

市场的需求基础设施厂商都看到了，以戴尔科技为代表的很多基础设施厂商也推出了大量创新的产品和技术。

多元化AI计算平台，加速智能跃迁

众所周知，传统数据中心的典型架构是以CPU为中心，而今天在大模型训练和推理需求的推动下，CPU+GPU为代表的异构计算正在成为主流，GPU成为越来越多服务器的标准配置。顺应市场的最新需求，戴尔科技推出了多款PowerEdge服务器，它们专门针对GPU计算设计和优化，能支持英特尔等不同品牌的GPU加速卡，可满足不同应用场景的需求。

“围绕AI 应用的GPU加速，戴尔科技能提供像GPU池化、GPU分布式训练、GPU集群管理和资源调度、边缘AI计算等GPU加速计算解决方案。”戴尔科技集团信息基础架构解决方案事业部企业技术架构师、全球CTO大使吴跃表示。

他介绍，PowerEdge 服务器设计中有很多针对GPU的专门设计。比如，多矢量散热技术的应用可以保证均匀冷却服务器各部件；电源增强设计（即瞬时功率）可以达到电源标称功率的1.4到1.7倍，以应对GPU开机过程中的启动风暴。这些设计都是为了确保GPU在服务器内达到最佳运行状态。

在AI的公开基准测试中戴尔科技PowerEdge表现优异。MLPerf是当前AI领域关注度和参与度最高的计算性能基准测试，在去年9月份发布的MLPerf Inference V3.1的推理基准测试中，共有26个厂商提交了超过13500条的测试记录。在20个数据中心项目赛道中戴尔科技取得了7个项目的第一名，另外4个项目的第二名。在所有参与评测的GPU服务器产品中取得最好的综合成绩。

除了多款GPU服务器外，戴尔科技推出的搭载英特尔Xeon Max处理器的PowerEdge服务器也值得一提。目前戴尔科技有三款服务器可以支持Xeon Max处理器，包括2U 两路的计算平台PowerEdge R760、1U 两路的计算平台PowerEdge R660以及2U 4节点PowerEdge C6620。

Xeon Max处理器是英特尔推出的业内首款集成HBM的x86 CPU，其中集成了64GB的HBM，内存带宽可达到1TB/s，无需GPU加速卡就可实现内存带宽密集型应用的加速，如模型推理与模型微调等。

相关测试表明，单个Xeon Max处理器即可完成60亿、130亿规模的大语言模型的加载和应用；对于对话式AI的场景，会话首个token生成延迟小于3秒钟，下一个token生成延迟小于100毫秒。而且，由于所有主流AI框架与加速库都支持x86计算，在CPU上运行AI模型可以减少代码改动量，大大简化了AI应用的开发和部署。

吴跃介绍，为了持续引领AI基础设施技术创新，加速AI应用的落地，戴尔科技还成立了AI HPC创新实验室，专门从事AI计算、并行计算的前沿技术研究、效能的基准测试等相关工作。超级计算机Ratter就是戴尔科技AI&HPC创新实验室打造的GPU超算集群。戴尔科技很多AI以及使用GPU加速的HPC解决方案(如CAE、分子动力学、生命科学等)也是在Ratter集群上首先进行测试和优化的。

从边到端，让AI算力无处不在

实际上，基础设施相关的技术创新不只是发生在计算领域，也发生在存储和网络领域，同时，也不只是在云端和数据中心，还发生在端侧，并正在酝酿一场从云到端、全面的升级。

比如，为了减少数据传输的延迟，戴尔科技PowerScale今年新增了Multipath Client driver（多通道客户端驱动程序），借此单个客户端就可以能实现40GB/s的峰值带宽，可为高密度的GPU算力服务器提供充沛的后端存储性能；OneFS是戴尔科技自研的文件系统，全闪PowerScale搭配OneFS 9.7文件系统，存储的流式读性能是上一代平台的两倍，流式的写性能是上一代平台的2.2倍，可以有效提高GPU在模型预训练和微调阶段的工作效率。

当然，在端侧的创新同样不少。从去年9月份英特尔推出AI PC概念以来，AI PC迅速被市场接受。IDC的预测，今年新增PC中一半以上将是AI PC；2027 年将进一步提升至 84.6%。戴尔科技也全面拥抱AI PC，今年新发布的AI工作站Precision 7960单台将支持4块双宽的GPU，最高配置4TB的内存和152TB的本地存储，为AI落地工作站提供强力支持。

谈到AI在边缘端的落地，英特尔不可不提。除了发力AI PC之外，英特尔还在其他方面持续优化CPU面向AI应用的性能，也为戴尔科技丰富自己的产品线提供更多选择。比如，英特尔从第四代至强可扩展处理器开始新增AMX加速器，无需GPU就可显著提升AI推理和训练的性能。根据英特尔的资料，AMX对于INT8精度有8倍的性能提升，对BF16精度有16倍的性能提升。而且由于AMX内置于CPU中，因而无需专门构建解决方案。

另一方面，英特尔也联手合作伙伴推出面向边缘的AI解决方案参考设计。英特尔Edge AI Box 就是其中之一，AI-BOX在搭载英特尔酷睿处理器的单一计算盒内集成了视频解码和分析功能，既可作为连接到 IP 摄像头或网络录像机 (NVR) 等视频源的独立设备，实时进行边缘视频分析，也可以连接到网络并充当网络上的独立 AI 服务，按需运行离线深度学习分析，部署非常方便。

“围绕边缘AI的落地和部署，英特尔联合戴尔科技等合作伙伴共同打造了很多基于英特尔软硬件栈的边缘AI解决方案，以支持无处不在的AI应用。”英特尔中国解决方案部AI架构师俞巍表示。

实际上，除了英特尔外，戴尔科技还与很多厂商有合作，其中与ISV合作研发面向细分领域的解决方案就是一种重要的合作方式。

当下，向量数据库+大模型的RAG（检索增加）非常热门。因为RAG既可以发挥大模型的语言生成能力，又可以借助向量数据库解决大模型的幻觉问题，被认为是一种非常有应用前景的AI落地形式。达观数据是一家专注于智能文本处理技术的国家级专精特新“小巨人”企业，其智能知识管理系统在行业内拥有不少用户，现在戴尔科技就在和达观数据合作，共同探索RAG技术与智能知识管理的融合解决方案。

另外，戴尔科技推出的经过验证的各种参考设计（AI Validated Design Solution）以及配套的技术白皮书和效能的验证，其中就离不开各种合作伙伴的支持。

“随着AI技术的迭代，AI场景与AI模型规模越发复杂，对AI算力与AI训练数据的需求也会更加地旺盛，AI基础设施未来几年将会持续成为全球IT投资的热点之一。”吴跃表示，作为领先的基础设施供应商，戴尔科技会和合作伙伴一起积极拥抱AI，通过技术创新推动基础设施的升级，加速AI应用的普及。

CBI科技在线

CBI科技在线的前身《电脑商情报》是创立于1992年3月的IT传媒。旗下CBINews.com是企业级IT渠道垂直网站。我们致力于为您提供企业级IT市场的渠道新闻资讯和原创深度报道。

最新文章

引领AI变革，亚马逊云科技凭什么？

我们共同创造并见证一个全新AI时代——2024年CBI传媒“云帆奖”启动征集

双向奔赴：得力高与纷享销客的数字化共舞

联想重磅升级全场景液冷产品组合，加速本土客户绿色创新之路

基于十大液冷创新，《联想问天海神液冷方案白皮书》三大系列精彩亮相

东软如何以AI+人才管理推动企业整体数字化变革？

戴尔助力世泊科技打造“智停”方案，让车主乐享智慧停车

联想问天WD新品系列，让数据备份与恢复一键无忧

对话出海先锋企业，共议AI时代协同办公升级之路

社交媒体大数据如何让出海更精准更智能？

IBM员工向上管理：老大你越界了

助力产业低碳发展英特尔携手新华三（H3C）打造绿色计算机标杆

异构智能计算产业联盟走进吉利共探异构智算新未来

面对AI大潮，如何建成AI数据中心，让企业AI战略落地？

山特 40 周年：征程一往无前，初心历久弥坚

《CXO数智话》：AI时代，企业到底需要怎样的算力基础设施？

纷享销客CTO林松：如何打造智能型CRM，为企业全面提升价值

磨剑十余载，奥兰德品牌新品首发，“爆款 UPS”抢跑市场

《CXO数智话》：科技企业出海如何在全球布局？

为什么说Creo 11是提升企业设计研发效率的利器？

JFrog深耕中国市场，打造安全软件供应链

科技x物流如何为客户打造量身定制的物流系统？

核心多、主频高、更省钱，这几款戴尔服务器的魅力你Get到了吗？

求臻医学x戴尔科技：如何让数智化基因检测造福更多肿瘤患者？

中小企业智能化转型｜联想“三步”闭环，向新而行

存储在加快从构想到实现创新过程中的关键性作用

构建云上AI Agent的“奥”秘

《CXO数智话》：人形机器人的进化论

《CXO数智话》：从新质生产力看企业创新管理

创新的康普，绿色的连接

硬核科技赋能，铸就体育赛事极致观赛体验

《CXO数智话》：专精特新申报流程和策略有哪些？

算力换新 AI升级——AI时代算力基础设施的革新与创新

AI算力需求飙升功耗也猛增，数据中心该如何降温——戴尔科技携手英特尔共建绿色数据中心破解能效难题