AI是什么?AI 人工智能 和机器学习 (ML) 网络与传统网络有何不同?

文摘   2024-09-24 07:05   马来西亚  

人工智能 (AI) 网络/ML机器学习网络与传统网络有何不同?人工智能 (AI) 和机器学习 (ML) 的日益普及要求数据中心网络更加强大和高效。了解 AI网络的新要求、AI 和 ML机器学习网络流量模式的独特性、使以太网适合运行高性能 AI工作负载的技术,以及如何帮助优化 AI网络方案

本文将教您有关人工智能和机器学习如何影响数据中心网络和设计的所有知识 — 回答以下这些问题:

  • 支持人工智能和机器学习模型的网络与传统数据中心网络有何不同?

  • AI人工智能是什么?有哪些AI人工智能典型应用?

  • 什么是机器学习?

  • 什么是AI集群,它如何工作,如何扩展?

  • 如何构建和训练大型语言模型 (LLM)?

  • 性能瓶颈(例如数据包延迟和数据包丢失)如何影响 GPU 利用率?

  • 人工智能 (AI) 网络ML机器学习网络优化的数据中心需要为哪些新的流量模式和工作负载做好准备?

  • 如何衡量人工智能 (AI) 网络性能?

  • 如何优化平均链路利用率几乎是传统数据中心两倍的网络?

  • 能否为人工智能 (AI) 网络/ML机器学习网络配置以太网网络以避免拥塞并优化 GPU 性能?

  • 如何对 AI网络进行基准测试?

  • 是否可以模拟人工智能 (AI) 网络/ML机器学习网络工作负载、AI集群通信和 GPU 行为?


AI是什么?

人工智能正处史上最长繁荣大周期
人工智能从1956 年被正式提出以来,经历了数十年的发展历程。人工智能诞生初期,其研究主要分为三个流 派,即逻辑演绎、归纳统计和类脑计算。在进入21世纪以来,在大数据和大算力的支持下,归纳统计方法逐渐占据了人工智能领域的主导地位,深度学习的浪潮席卷人工智能,人工智能迎来史上最长的第三次繁荣期。
智能算力规模将快速增长
复杂的模型和大规模的训练需要大规模的高算力支持,这不仅需要消耗大量计算资源,而且对算力的速度、精度、性能也提出更高要求。市场对于更高性能的智能算力需求将显著提升,智能算力增长速率约通用算力的两倍。
据IDC和浪潮信息测算,2022年中国通用算力规模达 54.5 EFLOPS,预计到2027年通用算力规模将达到117.3 EFLOPS。2022年中国智能算力规模达259.9EFLOPS,预计到2027年将达到 1117.4 EFLOPS。2022 -2027年期间,中国智能算力规模年复合增长率达33.9%,同期通用算力规模年复合增长率为16.6%。

AI 人工智能是新一轮科技革命和产业变革的重要驱动力量,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
Al 的全称Artificial Intelligence,人工+智能-->合起来就是人工智能。AI 人工智能的目的是模仿人类智能,使电脑能够实现一些人类难以完成的任务,比如自动学习、自动推理和自动解决问题。
什么是AI技术?Al技术的核心本质是让电脑模仿人类的智能。有很多不同的技术原理支撑着Al,但其中一些最重要的包括机器学习,它涉及使用算法让电脑从数据中学习,以及自然语言处理,它允许电脑理解和生成人类语言。其他重要的原理包括计算机视觉+,它使电脑能够"看"和解释视觉数据,以及决策算法,它使电脑能够根据可用的信息做出决策。
人工智能就是以模仿人为目的的,看,听,说,读,写等等。现阶段的人工智能是最初级阶段的,最终的目标是强人工智能 AGl (Artificial general intelligence)。
人工智能被称为世界三大尖端技术之一(空间技术、能源技术、人工智能), 也被认为是21世纪三大尖端技术(基因工程、纳米科学、人工智能)之一。

AI人工智能是研究使用计算机来模拟人的某些思维过程和智能行为的学科,主要包括:

  • 计算机实现智能的原理

  • 制造类似于人脑智能的计算机

  • 使计算机能实现更高层次的应用


AI 人工智能的三要素是什么?

实现人工智能的三要素是数据,算法和算力。

  • 数据是人工智能系统的基础,大量的数据可以帮助算法更好地学习和优化,从而提高人工智能系统的准确性和效率。

  • 算法是将数据转化为有用信息的关键。算法是人工智能系统的核心,它们负责对数据进行分析和处理,并产生有用的结论和预测。一个好的算法可以让人工智能系统更加智能化和高效化。

  • 算力是支撑人工智能运行的基础设施。随着数据量和算法复杂度的增加,需要更强的计算能力来支持人工智能系统的应用。当然,算力并不是越强越好,还需要根据实际情况做出合适的配置和优化。 

AI人工智能典型应用

1. GPT 生成式预训练

什么是 GPT?

生成式预训练(Generative Pre-trained Transformers)通常称为 GPT,是使用 Transformer 架构的神经网络模型系列,是人工智能 (AI) 的一项重要进步,为 ChatGPT 等生成式 AI应用程序提供支持。GPT模型使应用程序能够创建类似人类的文本和内容(图像、音乐等),并以对话的方式回答问题。各行各业的组织都在使用 GPT 模型和生成式 AI 来实现问答机器人、文本摘要、内容生成和搜索。

为什么GPT很重要?

GPT模型,尤其是它们使用的 Transformer 架构,代表了 AI 研究的重大突破。GPT 模型的兴起是ML机器学习网络广泛采用的一个转折点,因为该技术现在可以用于自动化和改进一系列广泛的任务,从语言翻译和文档摘要到撰写博客文章、构建网站、设计视觉效果、制作动画、编写代码、研究复杂主题,甚至创作诗歌。这些模型的价值在于它们的速度和运行规模。例如,您可能需要几个小时来研究、撰写和编辑一篇关于核物理学的文章,而 GPT 模型可以在几秒钟内生成一篇文章。GPT 模型激发了人工智能领域的研究,以实现通用人工智能,这意味着机器可以帮助组织达到新的生产力水平并重塑其应用程序和客户体验。

2.  通过语音实现人机交互

智能语音识别主要研究如何通过语音实现人机交互。随着网络信息技术和人工智能的发展,智能车载系统通过融合数字显示、手势操作、智能语音等多项技术,为汽车的驾乘人员提供多元化的人车交互服务。此外,在智能家居、智慧医疗等领域,智能语音识别技术被广泛用于AI助手等设备终端,方便了人们的生活。

推薦电子书:联网医疗设备面临的挑战

“开发联网医疗设备面临许多挑战。本电子书探讨了改进的模拟、测量和分析如何有效应对这些挑战,以帮助您保持领先并开发创新、安全和高质量的设备。”

3. 自动驾驶 - 运用学习算法实现自动驾驶

智能交通引入人工智能AI技术,通过建设实时的动态信息服务体系,深度挖掘交通运输相关数据,推动交通运输相关产业的运行和发展。智能交通主要应用在车辆违法取证、智能识别抓拍、实时预警反馈、立体布控稽查、车辆大数据分析等业务。

运用了机器学习算法的自动驾驶汽车会根据用户的打分回馈去不断修正自己的行为模式,从而逐渐满足客户的要求。

例如,越来越多的公司都在竞相支持L5级无人驾驶,他们迫切需要各种传感技术,以便在多种交通场景下为车辆提供完美的“视觉和感知”能力。其中包括能够仿真各种信号以测试传感器性能的硬件,以及可以分析、区分和响应各种潜在道路危险的强大的软件算法。为了打造图像检测和人工智能(AI)应用方面的专业技能,以满足自动驾驶市场日益增长的需求,一家全球电子制造商正在寻求更可靠的新方法来进行设计和测试验证。这家制造商的研发团队已经在开发AI和深度学习算法,以便为其光探测和测距(LIDAR)以及雷达传感器系统提供支持,让这些系统能够更高效地应对不断变化的道路状况和潜在的驾驶危险。研发团队还计划开发“智能传感器”,旨在提高自动驾驶汽车在恶劣天气条件下的应对能力。

无人驾驶研发的关键问题:

•对于79GHz及以上频率缺少可靠的测量方法

•希望缩短设计周期,满足紧张的日程安排


Keysight汽车雷达解决方案

借助Keysight SystemVue汽车雷达程序库软件,研发团队能够以独有的洞察力和能力来应对各种挑战。通过使用SystemVue程序库中的测试用例,研发团队可以根据需求快速仿真测试,从而将测试开发时间缩短了一半。除了加快测试开发速度之外,研发团队还可以轻松仿真线性、调频连续波(FMCW)多目标检测、3D扫描、以及具有微多普勒效应的行人步行场景(参见图1a和1b)。该软件自动将步行的行人与其他反射较弱或移动缓慢的目标区分开来。

图1a:微多普勒效应捕获到人在运动时的各个身体部位

图1b:SystemVue中的多目标仿真能力助力将初始测试场景的数量增加一半以上

采用是德科技解决方案之后,该制造商的研发团队能够迅速测试并隔离杂散信号,确保了传感器符合行业测试规范,节省了测试开发时间。自动驾驶研发团队使用E8740A的传感器数据(该数据以深度学习算法为基础)执行更多的设计仿真测试, 为自动驾驶汽车开发更安全、更智能的AI技术的同时,这些算法将会集成到该公司的新一代“智能传感器”产品中。

扫描二维码,推荐阅读应用指南:汽车雷达解决方案

"本应用指南提出了先进型 FMCW 雷达系统的设计方法,其中需要应用多天线、数字波束赋形(DBF)、多维 DSP信号处理和参数估计算法等AI技术。"

https://www.keysight.com.cn/cn/zh/assets/7018-04950/application-notes/5992-1063.pdf


4. 机器视觉提供传感器模型

工业制造的整个生命周期可划分为生产制造、供应链管理、质量监测、物流运输、销售服务等多个环节。以最核心的生产过程为例,基于收集的生产数据,人工智能可以自动设置和调整机器的运行参数,让机器和部件成为自优化的系统,更加节能高效。未来的工业不仅是规模化、标准化,也会是智能化、定制化。

机器视觉能够解决以往需要人眼进行的工业零部件的尺寸与缺陷检测重复性劳动;通过机器视觉进行定位、引导,控制工业机器人完成智能化组装、生产。工业机器视觉的核心零部件主要包括光源、镜头、相机和图像采集卡。机器视觉的主要应用领域包括智能制造及物流仓储等方面。

工业机器视觉系統



什么是机器学习ML?

机器学习(Machine Learning -ML)是AI人工智能的一个分支,它关注于使用算法和统计模型,让计算机系统能够通过经验学习并提高性能。

机器学习涵盖广泛的内容,主要分为以下几个主要方向:

  • 监督学习(Supervised Learning):模型通过输入数据和相应的标签进行训练,学习输入与输出之间的映射关系,然后对新的未标记数据进行预测。

  • 无监督学习(Unsupervised Learning):模型在没有标签的情况下学习数据的结构和模式,用于聚类、降维和异常检测等任务。

  • 半监督学习(Semi-Supervised Learning):结合了监督学习和无监督学习的元素,使用带标签和未标签的数据进行训练。

  • 强化学习(Reinforcement Learning):模型通过与环境的交互学习,通过尝试最大化累积奖励来制定决策策略。

  • 深度学习(Deep Learning):使用深层神经网络进行学习和模型构建的机器学习分支。

  • 迁移学习(Transfer Learning):利用在一个任务上学到的知识,来改善在新任务上的性能。

  • 集成学习(Ensemble Learning):将多个模型的预测结合起来,以提高整体性能。

  • 聚类(Clustering):将数据分成相似的组别,每个组别称为一个簇。

这些是机器学习领域中的一些主要内容,每个领域都有各自的技术和方法,适用于不同类型的问题和应用。 

人工智能、机器学习、深度学习三者之间有什么关系吗?

正如我們前面介紹的,AI 人工智能是一个广泛的领域,涵盖了多个方面的研究和应用。人工智能包括了机器学习和深度学习的内容:

机器学习(Machine Learning): 机器学习就是用算法解析数据,不断学习,对世界中发生的事做出判断和预测的一项AI技术。研究人员会用大量数据和算法“训练”机器,让机器学会如何执行任务。机器学习的特點是:

  • 模拟、延伸和扩展人的智能”的一条路径,所以是人工智能的一个子集;

  • 基于大量数据的,也就是说它的“智能”是用大量数据喂出来的;

  • 是大数据技术上的一个应用。


深度学习(Deep Learning): 深度学习是机器学习的一种特定形式,它使用深层神经网络来模拟和解决复杂问题。深度学习在图像识别、语音识别、自然语言处理等领域取得了显著的成就。深度学习已经在图像识别、语音识别、自然语言处理等各种领域取得了显著的成就。随着AI技术的不断发展,深度学习仍然是人工智能研究和应用中的关键领域。

机器学习/AI计算的发展趋势

Resources: https://arxiv.org/pdf/2202.05924.pdf

深度学习概念较新是用于建立、模拟人脑进行分析学习的神经网络,并模仿人脑的机制来解释数据的一种机器学习技术。

深度学习的特点是试图模仿大脑的神经元之间传递,处理信息的模式。最显著的应用是计算机视觉和自然语言处理领域。显然,“深度学习”是与机器学习中的“神经网络”是强相关,“神经网络”也是其主要的算法和手段;或者我们可以将“深度学习”称之为“改良版的神经网络”算法。

“深度学习”是与机器学习中的“神经网络”是强相关

机器学习和深度学习之间的主要区别

学习方法:机器学习使用算法从数据中学习,而深度学习使用人工神经网络。

复杂性:深度学习更复杂,可以处理更复杂的问题。

人为干预:机器学习需要较少的人为干预,而深度学习通常需要更多持续的人为参与。



人工智能 (AI) 和ML机器学习网络与传统网络有何不同?

新的网络要求

支持 AI网络和 ML机器学习网络与传统数据中心网络具有不同的要求和流量模式。传统数据中心和 AI数据中心的数据类型、容量和流量模式截然不同。较大的 AI集群的硬件投资价值数亿美元,优化可以显著减少创建学习模型所需的时间。

传统数据中心

在传统数据中心网络中,单个查询或计划作业(包括夜间作业)很常见。这些工作负载差异很大,流量分布在不同的连接上。

整体网络负载在各个链路上均衡,与用户数量成比例增长。延迟或丢失的数据包通常不会引起重大问题。这些传统企业工作流程的示例包括银行后端系统获取个人账户余额的 Web 请求或计算利息的夜间作业。

AI数据中心

另一方面,数据中心中的 AI集群必须表现得更像一台拥有数千个图形处理单元 (GPU) 和数百个 CPU 和交换机的超级计算机。在 AI集群中,所有 GPU 都在处理同一个问题,构建大型语言模型 (LLM) 可能需要几天或几周的时间。

这些 GPU 通过最快的网络链路互连,可以传输大量数据,并且不会丢失数据包或在任何链路上遇到拥塞。由于所有 GPU 都在处理同一个问题,因此当最后一个 GPU 完成处理时,它们就完成了任务。构建完成后,LLM 可以移动到较小的 GPU 或基于 CPU 的前端计算机系统。然后,用户可以查询模型,以查看它如何很好地应用在训练期间学到的信息。这个过程称为推理。为了本文的目的,我们仅讨论后端 LLM 训练。

什么是AI集群?

AI集群是一种机器学习过程,将数据组织成具有相似属性或元素的子组。它是机器学习的一个子集,涉及根据相似数据点的特征对其进行分组。集群算法往往在答案不需要完美、只需要相似或接近可接受匹配的环境中工作良好。集群分析是一种用于将数据点分组在一起的AI技术,以最小化组内方差。

AI集群是由多台包含CPU、内存、GPU的服务器组成,需要考虑机器内通信和机器间通信。机器内通信通常包括共享内存、PCIe、NVLink等方式,机器间主要通过TCP/IP网络和RDMA网络(直连模式)。

AI集群可扩展

在扩展传统数据中心时,优化主要通过比较查询响应的服务级别协议 (SLA) 与实际结果来确定。结果可能是检索支票账户余额需要几毫秒,或者大型夜间作业需要几个小时。如果结果不符合预期时间,则操作员可以调整服务器数量和网络速度以及反馈。

但是,扩展 AI集群需要优化构建学习模型所需的时间。

构建新模型可能需要数周或数月。即使将这段时间缩短几天,也可以释放 AI数据中心中价值数百万美元的 GPU 来处理下一个作业。添加 GPU 成本高昂,而且可用性有限。因此,逻辑上的第一个优化是改善 GPU 空闲时间并消除任何潜在的网络拥塞,然后再增加容量。

在 AI集群中,GPU协同工作,通过学习来训练模型。任何长时间的数据包延迟或数据包丢失即使影响一个GPU,也会显著增加作业完成时间,因为其他 GPU处于空闲状态。虽然高速网络链路必不可少,但还不够。关键目标是使用现代以太网中的各种技术来配置 AI网络,以避免拥塞。

新的流量模式

AI数据中心的网络流量模式的性质与传统数据中心流量不同。

工作负载分布在数百或数千个 GPU中,发送和接收大量数据集。与大小可变的互联网流量不同,AI数据集大小表现出有限的随机性。

AI集群在 GPU计算和 GPU之间共享计算结果之间经历快速、高频的转变。当 GPU发送或等待信息时,它处于空闲状态。流量也可能是突发的,并表现出特定的模式,例如全对全,许多 GPU试图将数据发送给彼此,从而导致播送拥塞

长尾

AI网络性能是对完成时间最长的流程的测量,而不是平均带宽。这些长尾会显著影响作业完成时间,从而影响 GPU 利用率。如果平均流程完成时间为 150 毫秒,但一个 GPU 上的最长完成时间为 190 毫秒,则所有 GPU 的实际总体完成时间(算法完成工作负载所需的时间)为 190 毫秒。详情请参见图。

图. 关键测量指标示例

平衡在网络优化中很重要

在此示例中,某些 GPU 比其他 GPU 获取数据的速度快得多。优化目标不是实现向特定 GPU 的最快数据传输,而是平衡网络以确保所有 GPU 大约同时接收数据,这样它们就不会闲置。实际上,此过程涉及加速慢速流并减慢快速流。一旦 GPU 接收到彼此的数据,它们就可以启动另一个计算周期。此优化网络可最大限度地提高 GPU 利用率。

这里的类比是 100 个弹珠悬挂在一张网上,网上的孔比弹珠略大。如果将所有弹珠都放入网中,有些会很快掉落,但许多会聚在一起,最后一个需要一些时间才能掉落。如果您通过某种通道将弹珠引导到孔中,即使第一个弹珠需要更长时间才能通过,所有弹珠都会更快地通过。这里的孔是网络链接,弹珠是来自 GPU 的流。

相比之下,传统数据中心流量由许多随机大小的流量组成,这些流量在不同时间发生并连接到许多客户端。平衡这种类型的流量网络链路相对简单,在某些情况下,它可以自我平衡。另一方面,AI 流量涉及始终流向所有节点的大量流量,平衡起来更具挑战性。

何时升级 AI网络?AI范式已经改变

从运营角度来看,在传统数据中心,如果链路利用率接近 50%,就会开始讨论升级。在 AI数据中心,链路利用率可以达到 90%。如果所有链路的速度都神奇地翻倍,链路利用率仍然会很高。

新的以太网网络配置

以太网在当今的数据中心中非常普遍且成熟,公司可以对其进行优化和配置以支持 AI网络。构建、部署、管理和排除这些网络故障所需的技能通常可以通过公司内部资源或承包商和顾问获得。

公司可以使用这些现有技能为 AI 配置以太网网络,以避免可能影响 GPU 利用率的拥塞。

现代以太网协议使用优先级流量控制 (PFC)显式拥塞通知 (ECN)数据中心量化拥塞通知 (DCQCN) 和数据包喷洒等功能来管理数据中心网络中的流量和拥塞。让我们快速了解一下这些技术。

什么是PFC?

PFC(Priority-based Flow Control)的含义是基于优先级的流量控制,它是目前应用最广泛的能够有效避免丢包的流量控制技术,是智能无损网络的基础。使能了PFC功能的队列,我们称之为无损队列。当下游设备的无损队列发生拥塞时,下游设备会通知上游设备会停止发送该队列的流量,从而实现零丢包传输。

为什么需要PFC?传统流量控制技术有什么弊端?

最基本的流量控制技术是IEEE 802.3定义的以太Pause机制:当网络中的下游设备发现其流量接收能力小于上游设备的发送能力时,会主动发Pause帧给上游设备,要求上游设备暂停流量发送,等待一段时间后再继续发送。

PFC是如何工作的?

PFC是一种基于优先级的流量控制技术,如图所示,DeviceA发送接口被分成了8个优先级队列,DeviceB接收接口则存在8个接收缓存,二者一一对应。DeviceB接收接口上某个接收缓存发生拥塞时,会发送一个反压信号“STOP”到DeviceA,DeviceA则停止发送对应优先级队列的流量。

由此可见,PFC解决了现有以太Pause机制和链路共享之间的冲突,流量控制只针对某一个或几个优先级队列,而不是整个接口的流量全部中断。每个队列都能单独暂停或重启流量发送,而不影响其他队列,真正实现多种流量共享链路。

PFC的工作机制

什么是AI ECN?

AI ECN(Artificial Intelligence Explicit Congestion Notification)是一种根据现网流量模型,智能地调整无损队列的ECN门限的功能,可以保障零丢包下的低时延和高吞吐,以使无损业务达到最优性能。

为什么需要AI ECN?

为了实现对无损队列的流量控制,减缓无损队列的缓存拥塞,可以为无损队列设置两种缓存门限——ECN门限和PFC门限。当设备的出队列缓存达到ECN门限时,会通知发送端服务器进行降速;当设备的入队列缓存达到PFC门限时,会通知上游设备停止发送流量。实际上,如果出方向一直不拥塞,入方向是很难拥塞的,报文到达后会被马上转发。为了保证无损业务的低时延和高吞吐,在发生拥塞时,一般通过先触发ECN门限通知降速来缓解拥塞,尽量避免触发PFC,以防发生断流。

由此可见,合理设置ECN门限对于保障零丢包下的低时延和高吞吐尤为重要。

ECN门限和PFC门限减缓拥塞示意图

开始使用优先级流量控制 (PFC) 和 显式拥塞通知 (ECN)进行调整

当交换机的缓冲区达到某个阈值时,优先级流量控制 (PFC)可使交换机向上游设备发送暂停帧,从而停止该队列的流量。虽然这种方法可以防止丢包,但单独使用并不是一个很好的解决方案。网络将运行缓慢,队列会启动和停止。

显式拥塞通知 (ECN)在设备之间提供拥塞通知,以便发送设备降低流量速率。

DCQCN 协调 ECN 和 优先级流量控制 (PFC)的工作。DCQCN 是一种算法,它使 显式拥塞通知 (ECN)能够通过在拥塞开始时降低传输速率来管理流量控制,从而最大限度地缩短 优先级流量控制 (PFC)持续时间。调整 DCQCN 很棘手,还有其他改进 AI网络配置的途径。

进一步的AI网络优化选项

传统数据中心使用的路由策略是等价多路径 (ECMP),它通过流量平衡网络。但是,当单个 AI 流量可以饱和链接时,这很有挑战性。对于 AI网络来说,在数据包级别平衡网络更有效。数据包喷洒和其他形式的负载平衡,例如动态负载平衡、基于单元的路由和认知路由,通过可用的网络链路发送数据包。与 AI 集合中的流量相比,数据包很小,从而大大提高了链路利用率。

在硬件级别,远程直接内存访问 (RDMA) 允许跨两个服务器的应用程序直接交换数据,而无需使用处理器、操作系统、缓存或网络内核。也就是说,应用程序可以在不使用任何一台服务器的处理器的情况下在远程服务器的内存上读取/写入数据,因此数据移动速度更快,延迟更低。融合以太网上的 RDMA (RoCE) 在以太网网络上提供了这种机制。

无损以太网网络的案例

通过结合使用这些AI技术并为每种技术设置正确的设置,可以创建无损以太网网络。

无损以太网网络的协议已经存在,基准测试结果的工具、所需的管理应用程序以及网络工程师和架构师的机构知识也已经存在。

行业专家正在为人工智能开发新的以太网功能和创新。超级以太网联盟正在努力标准化高性能以太网功能并简化配置和管理,这是其人工智能网络增长路线图的一部分。

挑战在于如何在部署之前验证设计和目标。

如何优化AI网络?

优化AI网络的新方法 - 对 AI网络进行基准测试需要创建 AI 训练期间看到的流量模式,并通过可以模拟 GPU 和 RDMA 网络接口卡 (NIC) 的网络流量生成器发送该数据。GPU 支持 RDMA NIC,这可以实现 GPU 之间的快速数据访问。

要模拟的流量类型

系统应该能够重复创建具有不同数据模式和大小的场景,这些场景是由 AI集群中的集体通信产生的。流量包括模拟队列对连接和流、生成拥塞通知、执行基于数据中心量化拥塞通知 (DCQCN)的动态速率控制,以及提供灵活性来测试吞吐量、缓冲区管理和 ECMP 散列。

图. AI集群与 Keysight AI 数据中心解决方案的比较

工程团队可以使用支持 RoCE v2/RDMA 的网络流量生成器,根据结构的性能测量在实验室或暂存环境中进行设计改进,而无需依赖 GPU 加速器。

优化 AI网络的有效解决方案应提供灵活性,以定义用于工作负载模拟的 AI 系统配置。这包括 GPU 数量、NIC、拥塞控制设置(例如优先级流量控制 (PFC)数据中心量化拥塞通知 (DCQCN))、数据大小、Q 对特性以及模拟 NIC 的配置。这种灵活性使得能够以高效且可重复的方式对不同配置进行基准测试。

重要的是进行不同数据大小的运行,为完成时间、算法和总线带宽等关键性能指标提供结果。了解各个 RoCEv2 Q 对之间的统计指标分布也至关重要。

AI数据中心网络要求和流量模式与传统数据中心网络有很大不同。用于优化 AI网络的范例不同,并且人们期望网络将以接近容量的方式无损运行。一个关键策略是优化网络以提高 GPU利用率。虽然有许多方法可以通过以太网实现这一点,但这不一定是显而易见或微不足道的。

为了避免手动、耗时的工作,Keysight 的基准测试和优化AI网络工具利用了现有的数据中心工程技能和机构知识和流程。借助此工具,网络架构师可以使用 Keysight AI 数据中心测试平台模拟网络负载和 GPU 行为,以主动查明瓶颈并优化网络性能。结合负载测试模块,该解决方案可优化 AI网络,从而提高 GPU利用率 — 最大限度地减少资源浪费并削减网络 GPU费用。

扫描二维码,推荐阅读应用文章:如何通过人工智能驱动的6G设计?

“虽然 6G波形和信道模型仍在不断发展,但 Keysight System Design、其 5G库和配套工具现已可供研究和探索。使用数字孪生进行工程设计可以确保统一的 Keysight 测量科学能够产生与硬件相同的结果。其效果是左移,在未来 3GPP 规范发布之前,已经可以将人工智能AI技术集成到 6G 系统架构中。随着规范的发展,6G 架构可以适应变化。”

是德科技 www.keysight.com.cn

Keysight RF射频测试资料分享
Keysight分享射频测试基础知识。需要更多信息,請訪問:https://www.zhihu.com/org/shi-de-ke-ji-73
 最新文章