实战 | 基于数智时代AI网络的创新与实践

学术   2024-10-29 17:11   北京  

文 / 中国邮政储蓄银行运营数据中心副总经理    张志鹏

中国邮政储蓄银行运营数据中心   张治铧  黄海

 

网络先行构筑数智底座

1.数智时代加速到来

在科技飞速发展的今天,数智时代已来临,数字与智能技术深度融合,推动各领域数智化变革。2024年初政府工作报告启动了“人工智能+”行动计划,加快形成以人工智能为核心的新生产力。同年7月,二十届三中全会发布的《中共中央关于进一步全面深化改革、推进中国式现代化的决定》将人工智能列为八大战略性产业之一,加速其产业发展。国家金融监督管理总局也强调利用AI大模型助力金融机构降本增效,加速数智化转型。


近年来,以大模型为核心的AI技术取得显著进展。以ChatGPT为代表的聊天机器人展示了强大的内容生成能力,Sora的推出推动了多模态技术的发展,而OpenAI O1的创新则提升了处理复杂推理任务的能力,向通用人工智能迈进。此外,AI智能体架构及大模型的小型化、轻量化成为新方向,尤其在银行业的数智化变革中发挥重要作用,降低了AI技术的应用成本并拓宽了其在金融领域的覆盖面。


中国邮政储蓄银行提出“SPEEDS”科技战略,构筑“邮储大脑”作为数智能力的核心基座。2024年9月,千卡算力资源池建成并投入使用,具备支撑千亿模型训练、微调及推理的能力,目前包括研发代码生成大模型、营销大模型、运维大模型等场景已投入使用。


2.数智时代AI网络的思考

数智化是邮储银行金融科技发展的关键目标之一,构建强大的数智底座至关重要。作为连接各元素的桥梁,网络必须先行规划和建设,为全行数智化转型奠定基础。


从数字化到数智化的转变意味着服务能力与应用模式的升级。推广的大模型需要具备训练与微调能力,这要求网络能满足AI集群训练的通信需求,确保各NPU间参数与数据的高速传输,实现无拥塞、高稳定及自优化的算网协同。AI推理服务将广泛部署于数据中心、分支网点及移动设备,网络需支持全行统一的流量视图与调度,确保AI能力全覆盖。此外,AI技术推动了网络的发展,利用大模型提升服务水平,降低运维成本,能在复杂环境中实现多层次的安全防护。


网络技术与AI技术的融合正推动金融行业的数智化变革。一方面,需持续加强网络基础设施建设,提供与AI新技术相匹配的服务能力;另一方面,AI技术为网络注入新活力,通过智能体架构整合小模型及工具,快速识别网络异常,提高网络可靠性,预测流量模式,优化资源分配,动态调整带宽,满足变化需求。


邮储银行运营数据中心积极探索网络变革,提前布局网络使能数智服务与AI赋能网络,投产支持千卡规模大模型训练的高性能RoCE网络,并上线支持SRv6的广域智能流量调度平台,优化总分行间的智能互联。同时,邮储银行正开展联合创新,构建运维大模型,实现故障一键诊断、智能网络运维助手及智能工单服务,大幅提升运维效率和服务水平。


网络使能数智服务

1.智算网络服务的特点

网络在AI训练中扮演核心角色,与传统通算网络差异明显。随着模型参数与数据量增加,单机训练难以满足需求,需采用分布式并行计算将数千节点高效协同,通过数据或模型参数分片部署至多个NPU进行并行计算,并在每次计算后进行参数协同。“分布式并行计算+无拥塞网络”成为关键技术,依赖高速支持RDMA的网络保证集群算力线性度,确保无故障、无局部拥塞。AI大模型网络需具备高带宽、低延迟特性,以满足AI计算的集合通讯需求,动态避免网络拥塞,确保数据快速、准确传输。


以下是传统DCN网络与AI训练网络的对比:

 

总之,AI训练网络与服务器的NPU、上层任务调度软件及集合通讯算法紧密配合,需从组网方式、算网协同和训练优化上进行一体化设计,以提升训练效率。此外,网络还需支持云边协同,实现AI推理在分支和终端设备上的部署,使训练成果贴近用户侧,提升效率和用户体验。


2.邮储银行智算资源池AI网络实践

2024年9月,邮储银行运营数据中心成功投产千卡AI训练集群,保障千亿模型训练与百亿模型上线。AI大模型训练涉及初始加载、数据准备、并行训练、Checkpoint保存及模型发布等步骤。


网络按业务分为四部分:


● 参数面网络:实现跨机多卡AI参数迭代的高速互联,采用双层Leaf-Spine组网结构。

● 样本&存储面网络:支持AI集群频繁访问海量样本,提供高速存储互联。

● 业务面网络:用于系统业务调度与管理。

● 管理面网络:主要用于集群设备的带外管理。


业务、管理和样本面网络采用TCP部署;参数面网络需支持RDMA的高带宽无损网络,确保计算节点间参数高效交换。


围绕大模型训练特点,我行进行了RoCE网络的设计与建设,重点考虑以下要求:高速互联,防止网络瓶颈导致训练失败;无损网络保障RDMA访问性能;动态负载均衡以满足多任务并发要求,实现算力扩展;从集群层面监控及运维,确保断点续训的有效性(如图1所示)。

图1    大模型训练集群网络设计


为保障高速互联,我行参数面网络采用200G RoCE网络,组网采用Spine-Leaf两层CLOS架构,Leaf和Spine之间采用Fullmesh全连接,具备万卡扩展能力。服务器使用200GE接入Leaf交换机,端到端收敛比为1:1,提供无阻塞高带宽网络,支持大模型高线性度并行训练。


训练网络与计算任务的协同及网络质量对集群性能影响重大。例如,175B的GPT-3模型训练时,即便网络丢包率仅为千分之一,GPU有效计算时间也会减少13%。为此,我行采用RoCE无损网络技术,通过PFC(Priority Flow Control)机制进行流量控制,确保数据中心内的数据转发不丢包。PFC机制允许在同一以太网链路上创建8个虚拟通道,并为每个通道分配不同优先级,可以单独暂停和重启任一虚拟通道而不影响其他通道的数据流。设备会在端口上的8个队列各自设置PFC门限值,当队列缓存使用超过设定门限时,设备向上游发送PFC反压通知,指示上游停止发包;当缓存降至门限值以下时,再发送PFC反压停止报文,通知上游恢复发包,从而实现无丢包传输。


为了实现高效负载均衡,采用了控制器网络调优算法,实现动态路由和计算调度协同,避免训练过程中局部拥塞,确保大模型训练稳定快速完成。随着AI集群规模和复杂度的增长,故障概率增加,导致训练中断的风险上升。为此,我行搭建了面向AI算力集群的运管系统(如图2所示),提供集群范围内的监控管理,深入洞察算力分配情况,并实时监测性能变化。实现了跨域设备管理与NPU训练任务路径感知,具备AI网络关键指标实时监控和预检查功能,能够快速诊断和处理训练过程中的低效及中断情况。不仅提高了集群的整体运行效率,还增强了系统的可靠性。

图2    集群数字看板

 

人工智能赋能网络

1.AI赋能网络技术新征程

在数智时代,网络作为关键基础服务,需高效安全地连接银行业务组件,提供负载均衡、路由、解析等服务,并遵循行业和内部规范进行安全设计,控制故障影响范围。随着AI训练及大规模推理部署,新需求如RoCE网络、云-边协同为网络服务带来挑战,但也为网络技术注入新活力。


为应对邮储银行复杂的网络环境,运营数据中心建设了链路监控及分析、日志辅助分析等小模型及工具,并自主研发了统一监控平台、自动化平台和网络性能监控平台。但随着网络规模扩展和分布式应用的普及,网络领域仍面临诸多挑战,特别是多厂商设备在使用、管理和运维上存在差异,导致网络优化割裂,加之工具多样、数据繁多,对网络工程师提出了更高要求。AI模型的学习能力为解决这些问题提供了新途径,智能体架构促进了多种工具的协同工作,提升了网络服务质量。


邮储银行的数智化变革以分布式应用架构与智能服务为主线,网络服务至关重要。在分布式架构下,各服务组件需通过稳定、多层次的网络实现聚合与安全防护,并实现跨中心的多活以增强业务韧性。AI智能服务中,大模型训练依赖高性能网络,推理需将模型顺畅部署到业务前端,并实现全生命周期管理。智能化网络服务是数智时代的核心基础能力,保障了数智化变革的成功。


邮储运营数据中心提前布局,探索具有邮储特色的网络大模型,利用大模型的泛化学习能力,结合行内规范、手册和应急经验,实现故障影响分析与处置建议推荐等交互式运维场景。同时,基于网络大模型构建智能体,具备智能故障诊断、自动化修复及网络容量规划等能力,逐步构建高度自主、智能的运维平台,降低运维成本,提升效率,缩短故障时间,为业务增长提供强大支撑。


2.邮储网络运维大模型实践

邮储网络运维大模型架构如图3所示,以网络产品手册、行内处置指南和处置案例为知识库,以华为NCE平台、行内统一监控平台、一体化运维平台等平台为工具库,将这些工具和知识作为大模型的输入,实现网络服务从感知洞察到理解生成的转变。

图3    网络运维大模型框架


我行围绕网络运维大模型,选定了三个实际生产场景展开创新和实践。


(1)场景一:全网信息查询

为提高网络数据查询效率,我行实现了跨平台数据整合与分析报告生成,解决因多种内部工具导致的信息查询频繁切换问题。利用大模型学习能力,导入系统API的YAML建模文件,自动生成语料并理解API,快速适配工具对接。目前已整合多个系统及其20余个API的数据,生成超过4500条API问答语料,实现全网信息有效查询(如图4所示)。


在此场景中,网络运维大模型通过学习现有知识,生成针对查询接口的小模型,随着新工具引入,小模型可动态调整,持续进化,降低大型网络的监控查询成本。

图4    基于网络运维大模型的全网信息查询场景


(2)场景二:个性化知识问答

为降低网络运维的理解门槛,我行将知识库导入大模型进行知识提取与总结,解决网络设备与厂商多样、设备版本及命令各异的问题,以及故障处理手册、流程和合规文件繁多的情况。大模型吸收现有的合规手册、流程手册和故障处理手册等内容,通过LLM+RAG大模型应用范式获取这些知识,自动梳理并提取挖掘存储到知识向量库,提供知识向量检索和问答能力,支持多轮对话。这大大降低了网络运维的知识门槛,使专业知识更易获取和应用,减少了掌握专业知识的难度。

图5    网络知识库与网络运维大模型的协同架构


(3)场景三:故障自主处置

通过智能体自动完成信息收集与推理,生成故障处置工作流并推荐处置建议,高效扩展自动化处置能力。我行制定了故障应急处置流程,并以应急卡片形式集成对应操作,迅速应对特定故障。但随着卡片数量增加,定制开发的工作量与成本上升。


借鉴LLM+AI Agent的开发范式,我行通过大模型读取行内故障应急手册,利用AI进行知识提取,自动生成故障处置工作流,并通过AI Agent对接ITSM、拨测等系统,自动挖掘、分析数据并做出决策,实现故障处置自动化。同时,将应急卡片导入大模型,使其自动学习故障处置经验,使用自然语言大模型更新和迭代工作流程,降低了开发与维护成本。


对于复杂场景,我行利用AI大模型的长序列处理能力,包含更多上下文信息,满足多轮对话需求,并集成知识图谱构建完整准确的知识网络。复杂场景下的运维对大模型的语言生成质量、泛化能力及多模态组合能力有较高要求,这是我行未来工作的重点。

图6    基于网络运维大模型的文生工作流架构


数智网络展望

邮储银行作为国有大型商业银行,坚持以金融科技构筑新质生产力,紧跟大模型、生成式AI、通用人工智能技术趋势,向新技术要效益,向新要素要价值。结合前期数智网络实践,匹配行内SPEEDS科技战略,邮储运营数据中心将在以下三个方面持续展开实践和探索:


首先,我行将持续夯实人工智能AI基础设施建设,由千卡集群规模扩容至三千卡规模,满足全行业务应用需求,探索云内网络与应用协同,形成领先行业的高效AI集群。


其次,我行将进一步扩展网络运维大模型覆盖范围,由当前云数据中心向广域网扩展,形成满足行内生产需求的高效运维平台;同时,在网络服务中应用更多大模型能力,如自动化的运维脚本生成,通过多模态文生图实现网络服务报表自动生成等。


最后,网络安全领域有广泛的大模型应用空间。数智时代银行的场景化服务上线速度快,与用户、生态伙伴、同业的交互频繁,网络安全问题更加突出。通过AI智能手段,可以更好地制定、优化和执行网络安全策略,将安全网络边缘服务(SASE)在全网范围落实,提升威胁检测准确性,借助大模型的智能预测能力,优化网络流量规划,增强SASE对复杂网络环境的适应性,提高整体网络安全与性能。



新媒体中心

主任 / 邝源

编辑 / 姚亮宇  傅甜甜  张珺  邰思琪

金融电子化
面向金融界科技人员、业务人员,在金融信息化建设中,为领导决策提供参考,为科技人员和业务人员提供交流的园地以及了解科技应用的窗口,为读者提供金融信息化发展最前沿的各类知识和信息。
 最新文章