摘 要
提出了一种大小模型协同的智能化移动网络优化方法,首先利用大语言模型处理和理解网络日志、外部开源等非结构化数据,从中提取关键数据。其次构建了一个包含网络设备、参数配置、专家优化经验等多维度信息融合的知识图谱,用于分析网络状态和优化需求之间的关系。然后,通过深度学习、图神经网络等专业工具模型进行根因分析,快速定位网络故障点,并基于专业知识图谱库和大模型的问题推理能力,辅助专家给一线员工提供具体的解决方案。最后,通过实际场景的实施和验证,由专家、一线员工对所提解决方案进行评估和反馈,这些评估和反馈信息经收集后不断返回,形成循环优化。
0 1
概 述
近年来,随着4G、5G技术的快速发展和普及,移动网络已经深深融入了人们的日常生活中,接入移动网络的设备数量持续增长,用户对传输数据的需求也呈爆炸性增长趋势,这对移动网络的稳定性、性能和保障用户体验等方面均提出了更高的要求。网络优化是保障移动网络服务质量、稳定性和效率的关键,直接影响到用户的使用体验和满意度。因此高效的移动网络优化运营已成为运营商的迫切需求。然而,在网络优化运营系统中,现有技术只能做到自动发现问题,无法有效提供具体优化建议。所以在实际场景中,需要将发现问题的工单由上级层层派发至一线人员,根因分析、优化方案的制定等重要职责均落到网格一线人员的身上。但一线人员缺乏用户感知分析和根因定位工具手段,容易造成网络优化的精细化不足、资源效能利用不足等一系列问题。
人工智能作为一种能够使计算机像人一样思考、学习和理解的技术,其通过专业领域的数据学习规律,并根据所学规律进行预测和决策。传统人工智能技术包含机器学习、深度学习、图神经网络、专家系统、知识图谱等多个分支领域,该类模型具有运行高效、专业性强的优点,并在诸多领域取得了突破性进展。在网络优化领域,人工智能技术可以帮助更有效地管理网络,提高网络性能。另一方面,以ChatGPT为代表的大语言模型技术的兴起,使用户与AI模型可以通过多轮对话的形式不断帮助AI模型理解用户的真实意图,并给出流程化的问题解决方案,具有极强的泛化性。在网络优化领域,大语言模型可以作为常识性知识和推理的良好工具。
传统人工智能技术和大语言模型均在移动网络优化领域有着巨大的潜力,并已取得不错的效果。但由于传统人工智能技术存在泛化性能较差、不具备推导能力,而大模型推理资源耗费高、耗时较长等不足,现有智能化的网络优化技术在可扩展性、实时性、负载成本等方面仍存在一定的问题。因此,本文从结合2类模型的优势、同时弥补其各自模型不足的角度出发,提出一种大小模型协同的智能化移动网络优化方法。该方法结合了大语言模型的理解和问题推理能力、知识图谱的语义关联性以及图模型的根因分析技术,提高移动网络的故障检测精度与优化效率。
0 2
大小模型协同的智能化移动网络优化框架
大小模型协同的智能化移动网络优化方法包含多源异构数据的处理、知识图谱的构建、专业性工具模型的训练和实际应用与结果反馈4个部分,框架如图1所示。
首先,该方法利用大语言模型理解和处理从内部和外部收集到的大量网络日志、专家经验、一线人员使用反馈等非结构化数据和基站基础数据、用户数据等结构化数据,从中提取出关键的有效信息。
图1 大小模型协同的智能化移动网络优化框架
其次,构建了一个包含网络设备、参数配置、优化经验等多维度信息的融合知识图谱,用于分析网络状态和优化需求之间的关系。然后,通过深度神经网络、图神经网络技术实现对异常情况的根因分析,快速定位网络故障点等场景化需求,并基于专业知识图谱库和大模型的问题推理能力,辅助专家给一线员工提供具体的解决方案,实现精细化的网络优化。最后,通过实际的实施和验证,由专家、一线员工对所提解决方案进行评估和反馈,这些评估和反馈信息经收集后不断发回,形成循环优化。经过数据、技术双方面的不断积累,该网络优化模型会越来越完善。下面章节将详细介绍框架中的关键技术。
0 3
关键技术
本章主要介绍多源异构数据处理、知识图谱的构建、专业性工具模型的训练和大小模型协同模式等关键技术。
3.1 多源异构数据
数据是决定模型性能的关键,数据的质量和数量直接影响模型的准确性和有效性。丰富、高质量数据可以帮助模型更好地训练,提高其预测能力和泛化能力。为了保证所提网络优化方案的性能,本文收集来自内部和外部的多源数据,具体包含优化手册、工单案例、专家经验数据、基站侧基础数据、用户侧数据、KPI、PM/CM等运营商内部独有数据和开源百科中的大量外部开源数据。其中优化手册、工单案例、专家经验多为非规则化的文本类数据,基站侧基础数据、用户侧数据、KPI、PM/CM多为一些数字型的结构化数据,而开源百科则会同时包含文本、数字类型的数据。
针对形式各异的非结构化数据,借助大语言模型从语言类、图片类的优化手册、工单案例、专家经验和开源百科数据中自动化得到关键部分,并分别给出原文本、图片类型的数据形式和经过大语言模型处理后的token形式,分别用于后续的知识图谱构建和工具化模型的训练等。
针对结构化的数字型数据,首先进行一系列的预处理操作,如完整性检测、异常值检测、正则化、归一化,保证数据的完整性、可靠性和后续的可操作性。
然后,对于类别型特征,直接进行简单的标签化预处理操作,如用户和基站的属性特征;而对于连续型数据,则需要进行统计、分桶操作后才可以标签化。以基础数据中的流量为例,需要将原始数据按照近一天、近一周、近一个月等不同统计周期内流量均值、最大值、最小值进行统计,并将统计数字进行合理的分桶操作后再进行标签化处理。
3.2 移动网络优化知识图谱构建
移动网络优化的知识图谱是一种结构化的语义知识库,用于描述移动网络优化领域的概念、实体、关系和规则,以及它们之间的语义联系。本章所提知识图谱由移动网络资源知识图谱和移动网络优化专家经验知识图谱融合得到。其中移动网络资源知识图谱侧重于对基础资源数据和空间连接关系的表征,而专家经验知识图谱则侧重于对一些网络优化策略、规则的描述。为了让知识图谱的构建更加自动化,本文利用移动网络优化领域大语言模型对经过3.1节所述方法处理后的数据进行实体识别和关系抽取,实现自动化抽取包含实体和关系的知识三元组。
为了进一步融合资源知识图谱和专家经验知识图谱,本文利用实体对齐技术,将2个图谱进行融合,得到融合知识图谱。该融合知识图谱可以为移动网络优化的分析、理解和决策提供支持,并可以利用知识图谱的推理、预测、决策、意图管理等技术,对移动网络优化问题进行快速定位、诊断和解决,减少人工干预和误判,对提高移动网络优化的效率和质量至关重要。融合知识图谱中包含如图2所示的9种节点和14种关系。
图2 融合知识图谱中节点和关系种类
为了让网络优化专家能够更方便地参与到网络优化知识图谱的共创中来,在知识图谱构建模块提供2种工具:图谱的可视化编辑工具和基于多轮对话的知识图谱补充工具。图谱的可视化编辑工具可以让网络优化专家直观地查看和修改知识图谱中的实体、关系和属性,以及它们之间的语义联系。基于多轮对话的知识图谱补充工具可以利用大语言模型的强大的语义理解和生成能力,从与专家的多轮交流对话中自动地抽取出语句中知识图谱所需的信息,如实体、关系、属性等,并将它们映射到知识图谱中进行补充和融合。通过这2种工具的协同使用,网络优化专家可以高效地构建和完善网络优化知识图谱,提升知识图谱的质量和覆盖度。
3.3 专业性工具模型
为提高移动网络的效率,各式各样数据驱动的模型被不断引入(如逻辑回归、SVM、朴素贝叶斯、GBDT、深度学习等)用于网络负载预测、网络故障预警、质差根因定位等。本文所提方法中的专业性工具同样包含GBDT、深度学习、图神经网络、大语言模型等多种模型。如图3所示,在实际场景中,基站与基站、基站与用户间的关系是复杂的,将其映射为非结构化的数据更为合理,图神经网络被广泛应用于非结构化数据的场景,它能够完整记录复杂的连接关系,对于挖掘深层关联信息有着天然的优势。非图技术算法通常将小区、基站、用户等作为孤立节点分别进行建模和预测,容易造成信息的缺失。而借助图神经网络,可以完整保留小区、基站、用户间的连接关系,并可以同步利用专家知识图谱中的已有经验,显著提升根因定位算法的准确性。
图3 基于图神经网络的移动网络优化工具模型
除了传统模型,行业化大语言模型也是专业性工具模型中的一种。基于网络运营数据的自动理解和知识图谱的构建,移动网络优化大语言模型可以根据不同的网络优化任务(如负载均衡、流量控制、安全防护等),自动生成最优的网络优化方案,并以自然语言和多模态的方式与用户进行交互,提供更丰富、更精准、更人性化的移动网络优化服务。
3.4 移动网络优化大语言模型的训练
大语言模型在所提方法框架中的数据处理、图谱构建、专业性工具模型3个环节中均有出现,其在不同环节有着不同的作用。而训练移动网络优化大语言模型主要包含以下3个步骤(见图4)。
图4 移动网络优化大语言模型的训练流程
第1步,将预训练的大模型作为基础模型。目前很多公司已开始训练自主研发的大语言模型,移动网络优化大语言模型可以采用公司自研大语言模型作为基础模型。对于一些没有自研大模型的公司,可采用一些已经开源的大模型作为基础模型,如LLaMA系列模型、ChatGLM系列模型、Baichuan、Qwen等。
第2步,使用指令微调的方法对基础模型进行微调。指令微调是一种基于自然语言指令的微调方法,可以让大模型快速适应不同的任务和领域,无需编写复杂的代码或准备大量的标注数据。本文所构建移动网络优化大语言模型共涉及三大类指令:数据自动理解类指令、知识三元组自动化抽取指令和移动网络优化方案生成类指令。针对不同的指令,需要通过人工标注和AI的方式,形成大量的指令微调数据集。
第3步,需要使用人工反馈强化学习的方法对微调后的模型进行进一步的优化。人工反馈强化学习是一种利用人工评价或奖励模型对模型的输出进行反馈和调整的方法,可以让模型的输出更符合人类的标准和期望,即提高模型的准确性、可读性和多样性。
本文所构建的移动网络优化大语言模型需要在多个移动网络优化任务上进行人工反馈强化学习,以提升模型的泛化能力和适应性。针对不同的任务,需要设计合适的奖励函数和策略,以及选择合适的强化学习算法和超参数。
3.5 大小模型协同方式
大语言模型通过指令微调、人工反馈强化学习的方式进行训练,实现泛化能力强和所能处理的任务多样化的目标,在移动网络优化领域具有通用性。然而,大语言模型参数规模很大,在部署和推理过程中会耗费大量资源,很难实现大规模应用。传统参数规模较小的模型,往往能够在专业领域实现较高的数据处理效果和效率,目前在网络优化领域使用最为广泛。因此,在实际应用场景中,本文所提移动网络优化方案采用如图5所示的大小模型协同的方式运行。大语言模型主要负责与客户/一线人员的交互,采用多轮对话的形式来准确感知用户的真实意图,并基于知识图谱、历史处理记忆给出合理的解决方案和工具模型调用的一系列动作指令。小模型接收到大模型的调用指令之后会自动执行如Code生成、数据库检索、网络故障检测、质差根因分析等具体任务,并将结果输送给大语言模型,大语言模型将其整理成用户能够理解的形式反馈给用户,进行下一轮次的交互。
图5 网优领域大小模型协同方式
0 4
在实际场景中的应用
以某省无线网络质量分析与优化工作为例,本文所提大小模型协同方案被定位为网优“智优大脑”而得以应用和部署,以平台形式提供网络的智能评估和诊断功能,以及直驱一线优化动作的根因分析能力。
本章从平台功能介绍和效果提升2个方面对本文所提方法在实际场景中应用的有效性进行验证。
4.1 基于大小模型协同的网络优化平台
基于大小模型协同的网络优化平台从面向内部的一线人员、专家和外部用户2个方面,提供咨询、分析、决策等多项能力。首先面向内部工作的一线人员、经验专家,平台提供工单生成、问题工单辅助分析,进而重点场景网络质量评价功能。其中工单生成指的是基于Trace、MR、PM、CM等多源数据,平台利用知识图谱、可视化、大数据处理等工具性模型,实时监控和识别移动网络小区类、小区对和区域类、小区类问题,并输出3类问题工单。然后利用图神经网络、行业大语言模型等工具性模型,平台对工单提供根因分析、决策方案制定等辅助分析功能。目前,平台已上线移动网络根因诊断模型包括小区类、小区对类、区域类3个维度,涵盖工程质量、覆盖控制、业务体验、移动性4个网络问题大类,11个问题子类。其中,小区类模型6个:小区高重建、越区覆盖、小区位置错误、室分外泄、波瓣角异常、方位角错误;小区对类模型3个:天馈接反、PCI混淆、高切换失败;区域类模型2个:弱覆盖、重叠覆盖聚类。根因诊断结果上,提供八大类根因描述及定界定位,包括告警类、参数设置类、资源不足类、天馈调整类、天馈故障类、干扰类、基础信息维护类、无线环境问题类;基于调研梳理网优一线处理动作百余条,针对每个问题的诊断结果给出TOP3推荐优化处理动作。图6为一线员工以多轮对话的形式与平台进行交互,平台针对实际问题给出解决方案和具体行为步骤。
图6 一线人员以多轮对话的形式与平台
进行交互
针对用户,平台提供用户的呼叫查询与诊断和异常呼叫地理化的功能。其中呼叫查询与诊断支持在某时间段内,对用户、基站、小区、栅格4个维度的异常呼叫查询;针对异常呼叫记录执行智能诊断,如在对应呼叫记录上给出问题原因、推荐动作,异常呼叫多源数据融合指标(告警、覆盖、性能等);提供异常呼叫的无线信令解码功能,并在前端展示层三信令及解码信息。异常呼叫地理化则支持异常呼叫的GIS可视化展示,如异常事件发生时,用户所在位置、接入小区、切换目标基站/小区,扩展图层(工参、规划站、投诉等)呈现。
4.2 基于大小模型协同网络优化的实际效果
针对根因诊断准确性,将本文所提方法和现有方法中的XGBoost、GCN、GraphSAGE、GAT、RGCN进行比较。其中XGBoost是一种优化的分布式梯度提升决策树算法,GCN、GraphSAGE、GAT、RGCN是一系列在网络优化领域应用广泛的图神经网络方法。采用分类领域常用的Hit@K指标作为评估标准,Hit@K衡量的是在模型预测的前K个根因中,实际根因的占比。
表1所示为某省网优优化中根因分析的实验结果,从表1可以看出,本文所提新方法在K=1、3、5的不同取值情况下,相比于现有方法,均可以取得非常明显的提升。
表1 某省网优优化中根因分析的实验结果
在实际场景中,基于平台能力完成所部署省份的全部地(市)的多轮次质量评估,累计根因诊断工单2万余条,支撑全省超百个优化网格工单的线上分拣、指派、流转,累计工单闭环率超过90%,实现85%以上网络问题的根因自动分析和智能派单。低感知意味着用户在使用过程中遇到了一定程度的网络故障问题,本文所提方法意在降低低感知用户的占比。如表2所示,以小区为单位对数据业务和语音业务进行衡量,在平台部署应用后,目标小区的低感知率持续下降。数据业务低感知小区占比降低5.15个百分点,全国排名提升近10名;语音低感知小区占比降低5.6个百分点,全国排名提升6名;全省用户投诉解决满意率提升6.9个百分点。上述实验结果充分说明本文所提方案在实际应用中有着良好的效果。
表2 平台部署前后的小区低感知小区占比
(单位:%)
0 5
总 结
针对现有一线人员缺乏用户感知分析和根因定位工具手段,容易造成网络优化精细化不足、资源效能利用不充足等一系列问题,本文融合大语言模型和传统模型的优势,提出一种大小模型协同的智能化移动网络优化方法。该方法充分利用了大语言模型的理解和问题推理能力、知识图谱的语义关联性以及专业性工具在根因分析、网络故障技术检测方面的高效性和专业性,并在实际应用中取得良好的效果。
作者简介
黄金超,高级研究员,博士,主要研究方向为网络大数据、人工智能算法;
谢志普,首席研究员,博士,主要从事网络优化、图神经网络算法;
吕非彼,高级工程师,硕士,主要研究方向为网络智能优化;
狄子翔,工程师,硕士,主要研究方向为网络智能优化;
邢震,工程师,博士,主要研究方向为网络智能运营;
程新洲,教授级高级工程师,硕士,主要从事大数据分析及架构等研究工作。
推荐阅读
点击“阅读原文”,下载论文PDF
欢迎扫码关注
头条号|邮电设计技术
官方网站|http://ydsjjs.paperopen.com
编辑|李星初 审核|袁江