AI技术正在引领社会思潮,创新正以迅雷不及掩耳之势发展。然而,要确保AI创新的持续加速,企业亟需构建一个强大的计算基础设施,以承载其计算密集型的AI工作负载。这正是我们所说的“为AI量身定制的基础设施”,而这也是微软向全球客户做出的承诺。这份承诺,远非简单地将合作伙伴研发的硬件堆砌于数据中芯之内,我们还携手业界伙伴,甚至在某些领域独辟蹊径,共同研发那些能够推动科学突破、赋能AI解决方案的最新、最强大的技术。
在去年11月的Ignite大会上,备受瞩目的技术之一便是空芯光纤(HCF)。这是一种创新的光纤技术,旨在优化Microsoft Azure的全球云基础设施,提供卓越的网络质量、更低的延迟以及安全的数据传输。
01
以空气为媒,重塑光传输
空芯光纤(HCF)技术旨在应对AI等高强度工作负载的严苛需求,并改善全球范围内的延迟和连接性。它摒弃了传统光纤的固态玻璃芯设计,转而采用空气作为光的传播介质。其独特的嵌套管结构,有效遏制了光线的逸散,确保了光线在空气芯中沿着最直接的路径高速穿梭。
光在空气中的传播速度比玻璃中快,因此空芯光纤(HCF)比标准石英玻璃光纤快47%,从而提供了更高的整体速度和更低的延迟。此外,每根HCF光纤还具有更高的带宽。但速度、延迟和带宽之间有何区别呢?速度是指数据在光纤介质中传播的速度,而网络延迟则是指数据在网络中两个端点之间传输所需的时间。延迟越低,响应时间越快。另外,带宽是指在网络中发送和接收的数据量。想象一下,有两辆车同时从A点出发前往B点。第一辆车是轿车(代表单模光纤SMF),第二辆车是面包车(HCF)。两辆车都载着乘客(即数据),轿车可以载4名乘客,而面包车可以载16名。两辆车可以达到不同的速度,面包车比轿车行驶得更快。这意味着面包车到达B点所需的时间更短,因此会先到达目的地,体现了更低的延迟。
半个多世纪以来,业界一直致力于在石英光纤技术领域取得稳定但微小的进展。尽管有所进步,但由于石英损耗的限制,这些进展相对有限。2024年初,HCF技术达到了一个重要里程碑,在1550纳米波长下实现了光纤损耗(衰减)的历史性新低,甚至超越了纯石英芯单模光纤(SMF)的极限[1]。空芯光纤(HCF)不仅具备低衰减的卓越性能,更在发射功率处理、频谱带宽、信号完整性和数据安全性等方面展现出全面超越SMF。
02
“速度为王”的极致追求
想象一下,你正沉浸在一款在线视频游戏的世界中。这款游戏要求你迅速反应,瞬间做出决策。如果你拥有高速低延迟的网络连接,你的游戏操作将迅速传达至游戏服务器及你的队友,让你能够实时反应,享受流畅无阻的游戏体验。反之,若你的网络连接缓慢且延迟高,你的操作与游戏实际进展之间就会出现滞后,让你难以跟上快节奏的游戏步伐。无论是错过关键操作时机,还是落后于他人,这种卡顿现象都极为恼人,严重破坏游戏体验。同样地,在AI模型中,低延迟与高速连接有助于模型更快地处理数据并做出决策,从而提升其性能。
03
为AI工作负载降低延迟
那么,空芯光纤(HCF)技术如何助力AI基础设施的性能提升呢?AI工作负载是指利用机器学习算法和神经网络处理大量数据的任务,涵盖了图像识别、自然语言处理、计算机视觉、语音合成等多个领域。这些任务往往涉及多步骤的数据处理流程,如数据的引入、预处理、训练、推理和评估。每一步都可能涉及从云服务器、边缘设备或分布式系统中的其他节点发送和接收数据。网络连接的速度和质量直接影响数据传输和处理的准确性和速度。若网络缓慢或不稳定,将导致AI工作流程中的延迟、错误或失败,进而影响性能,浪费资源,甚至导致结果不准确。面对日益复杂的AI工作负载,这些模型对处理能力和网络速度的需求急剧增加,尤其是那些涉及数十亿参数的任务。在此背景下,低延迟与高速网络成为了关键要素,它们不仅能够显著缩短模型训练与推理的时间,还能提升整体性能和准确性,从而激发AI技术的持续创新。
04
赋能全球AI工作负载
对于自动驾驶、视频流、在线游戏及智能设备等需要实时或近实时响应的AI应用场景而言,网络的快速响应和低延迟至关重要。这些应用需要在极短时间内处理大量数据并作出决策,因此,任何网络延迟或中断都可能导致性能下降或用户体验受损。低延迟和高速网络连接确保了数据能够迅速、准确地传输至AI模型,使其能够即时处理并返回结果。以自动驾驶轿车为例,它展示了AI在现实世界中的应用,依赖于AI模型在不可预测的环境中迅速识别物体、预测运动并规划路线。低延迟和高速连接促进了数据的快速处理和传输,实现了近乎实时的决策制定,从而提高了安全性和性能。空芯光纤(HCF)技术能够加速AI性能,为AI模型和应用提供更快速、更可靠、更安全的网络连接。
05
数据中芯区域布局的战略考量
除了直接影响运行AI模型的硬件外,还有更广泛的含义需要考虑。数据中心区域的建设成本高昂,而区域之间的距离以及区域与客户之间的距离,对客户和Azure在决定数据中心建设位置时都至关重要。当某个区域距离客户过远时,会导致更高的延迟,因为模型需要等待数据往返于更远的中心。
当我们将轿车与面包车的概念类比到网络通信领域,并思考其如何与网络性能相关联时,可以发现通过结合更高的带宽和加速的传输技术,网络中的两点之间能够在更短的时间内完成更多数据的交换,效率提升至原先的三分之二。另一方面,空芯光纤(HCF)技术的引入,能够在不牺牲任何网络性能的前提下,将现有网络的传输距离延长至多1.5倍,从而实现更远的传输范围。这意味着,与传统的单模光纤(SMF)相比,HCF在保持相同低延迟水平的同时,不仅实现了更远的传输距离,还能承载更庞大的数据量。这一突破对Azure客户而言具有深远的意义,因为它从根本上解决了数据中芯位置选择的局限性。客户不再需要过分追求数据中心的邻近性来确保性能,因为空芯光纤(HCF)技术已经通过技术手段消除了这一障碍,使得在降低延迟、保持高性能的同时,数据中心的位置选择变得更加灵活和自由。
06
AI时代的基础设施革新
空芯光纤(HCF)技术的诞生,旨在优化Azure的全球连接能力,以满足AI及未来工作负载的严苛需求。该技术为终端用户带来了前所未有的优势,包括更高的带宽、更优的信号完整性以及增强的安全性等待。在AI基础设施的框架下,空芯光纤(HCF)技术能够构建起快速、可靠且安全的网络环境,从而为AI工作负载的性能提升奠定坚实基础。
随着AI技术的不断进步,基础设施技术作为数字时代的关键拼图之一,其重要性日益凸显。它确保了高效且安全的连接,为数字世界的顺畅运行保驾护航。然而,AI的快速发展也对现有基础设施提出了更高要求,迫使其承受更大的压力。
在此背景下,AI用户纷纷寻求新技术的助力,比如今天提到的空芯光纤(HCF)技术、最新发布的ND H100 v5虚拟机,以及Azure与首家合作伙伴共同研发的AI加速器Azure Maia 100等。这些技术进步共同促进了数据处理的高效化、数据传输的加速化,并最终推动了AI应用的强大化与响应速度的提升。
点击文末 “阅读原文”
下载《在云中构建 AI 就绪基础结构》白皮书