一年一度,全球互联网再次进入“乌镇时间”。2023年世界互联网大会迎来乌镇峰会第十年,十年斗转星移,互联网不断加速信息技术革命,话题延伸至各个行业和产业领域的前沿热词,而当下最引人瞩目的当属人工智能。
数字化、智能化是互联网演变的重要方向,走近乌镇峰会、“互联网之光”博览会,人工智能的身影随处可见,全球互联网大赛人工智能专题赛紧张而激烈、人工智能主题展区热闹非凡、人工智能赋能产业发展论坛讨论引人入胜。虽称之为互联网大会,但升格为常设国际组织的乌镇峰会已成为展现创新技术、把脉前沿业态、共商共建共享的世界交流平台。
全球范围内,人工智能创新空前活跃,AI自然成为2023年世界互联网大会乌镇峰会的重要议题和倍受关注的产业领域话题。其中,华为星河AI网络解决方案以及业界首个高运力AI智算交换机CloudEngine XH16800亮相这一盛会,更是受到各方关注。
从感知理解到内容生成、从单模态走向多模态、从专用走向通用……人工智能的发展正以超乎想象的速度跨越拐点,AI引领全面变革,一系列创新技术、应用倍受市场追捧。各类大模型无疑成为炙手可热的焦点,如基于多模态大模型的AI个人助理将极大地便利人们的工作和生活,并且快速向行业渗透,如气象预报、医疗健康、研发制造等领域,AI融入千行万业、赋能产业升级有着巨大的潜力。
这背后,大模型参数量的不断攀升,引发质变,使得AI在解决通用问题上表现出非常优异的性能和泛化能力。举例来说,据业界估算,GPT-4参数规模达到1.8万亿,是GPT-3的1750亿参数量的10倍以上,这让其能够更好地理解物理世界,处理更复杂的任务,能力、功能更强大。
当然,大参数量的背后又带来算力需求的指数级增长,根据业界论文的理论推算,同等条件下参数变多,计算量变大,能达到可接受的训练时长,需要百亿参数百卡规模、千亿参数千卡规模、万亿参数万卡规模。据透露,GPT-4可能在大约10000-25000张A100 GPU卡上进行了训练。
所以,大参数模型意味着大算力消耗和巨大的成本支出,充分发挥算力效能犹如高速路网承载高密度车辆,需要强大的网络运力支撑,大运力与大算力是解锁大模型技术创新的双重力量。
随着AI模型参数从千亿增长到万亿、乃至十万亿级,传统网络基础设施越来越难以匹配大模型训练需求,而面临着巨大的挑战:
首先,在容量带宽方面,大模型的参数量巨大需要传输大量的数据,逐渐形成“参数面大网”,这时每个节点的接入带宽高达400G甚至达到800G,AI大模型并行计算模式需要以超大容量的网络为基础,传统网络无法满足高带宽需求。
其次,在通信耗时方面,AI计算集群规模越大,通信量和复杂度越大,网络作为通信的咽喉要道,通信的端到端耗时占比急剧上升,而无法充分发挥处理器性能,传统网络面临越来越明显的传输效率瓶颈,导致整体计算集群效能低下、成本高昂。
第三,在可靠性方面,AI大模型训练周期长,训练过程中极易出现可靠性问题,导致网络频繁中断,降低训练效率,亟需通过提升网络健壮性,确保训练高效可靠地进行。
可见,随着AI大模型参数量的不断增长,需要更高的算力和更强的数据传输能力,传统网络面临着带宽压力、通信耗时、可靠性问题等一系列挑战。为了应对这些挑战,亟待对网络基础设施进行升级,以满足大模型训练的需求,推动人工智能创新。
面向AI时代的网络基础设施如何演进?华为星河AI网络为人工智能带来了更多惊喜和突破。自华为全联接大会2023发布以来,星河AI网络备受业界关注,其拥有10万卡级组网和超95%负载率的超高吞吐,具备网络故障预测和秒级定界修复的长稳可靠,大小流精细化编排和弹性抗劣化冲击的弹性高并发等一系列优势能力,正因如此,华为星河AI网络及AI智算交换机CloudEngine XH16800亮相2023年世界互联网大会乌镇峰会,再次备受瞩目。
凭借独创的网络级负载均衡(NSLB)、网络智能调优(AI ECN)以及数据面故障快速收敛(DPFR)等创新技术,星河AI网络打造了AI时代最强运力,方案具备三大特性:
运得多:华为星河AI网络实现了端口高吞吐和网络高吞吐,支持万卡集群训练,AI智算交换机CloudEngine XH16800支持576*400GE接口,AI组网规模是业界的4倍,从而能够为AI训练构建一张运得多、足够宽阔的“高速路网”。
运得快:华为面向AI训练场景量身打造了AI加速器NSLB算法,通过绘制全局的流量矩阵,计算出最佳的流量分布,然后自动进行导流,从而达到全网吞吐最优,加之自动化开局和全栈可视运维技术实现算网实时协同调度,将网络有效吞吐从业界的50%提升到98%,大模型训练效率提升20%,进而做到让这张路网不仅宽阔且不堵车,数据传输效率更高、速度更快。
运得稳:AI网络由于组网规模较大,设备、链路故障频率较高,所以对网络进行实时监控、感知、故障收敛尤为关键。在训前,星河AI网络通过进行AI网络关键指标实时监控,保障网络100%健康;训中,华为采用独家网络数字地图一体化运维,高精度采集数据,一键诊断通信异常,实现训中排障效率提升90%;此外,结合Packet Event数据面异常感知技术和DPFR故障无感自愈技术等,星河AI网络能够实现亚毫秒级故障快速收敛,故障应用无感知,即在链路故障发生时业务性能无明显下降,最终实现月级训练不中断。
至此,华为星河AI网络面向AI大模型训练场景,融合运得多、运得快、运得稳三大优势,能够为用户打造一张大规模、高吞吐、高可靠的强大网络。根据国际权威评测机构Tolly测评显示,华为星河AI网络下的AI模型训练性能达到业界领先。
AI大模型需要大算力,算力的有效释放,离不开运力的支撑,大运力与大算力协同,是发挥AI计算集群最大效能、推动AI大模型创新发展的关键力量。反过来说,如果没有强大的网络形成大运力支撑,AI大模型的训练周期、计算集群成本都将面临严峻的考验,网络的演进是AI发展的必然。
面向未来,人工智能正开启一个波澜壮阔的时代进程,它的魅力将在融入千行万业中尽显。赋AI时代新动能,华为星河AI网络解决方案以及高运力AI智算交换机CloudEngine XH16800提供了一个超强网络底座,打造AI时代最强运力,为这场AI生产力变革铺就了坚实基石。
完
智会社 (ai-club.com.cn) :解构数智生态 发现智慧世界
联系作者请加微信:toyefei