无人机空地网络算力资源预测与分配联合算法研究
李书缘1,张敏2,曾凡喾2,高月红1
(1.北京邮电大学信息与通信工程学院,北京 100876;
2.武汉船舶通信研究所信息平台事业部,湖北 武汉 430205)
【摘 要】无人机空地网络相较于地基网络可以显著提高网络覆盖率。空地网络动态性强、拓扑变化复杂,传统的算力资源分配算法已无法满足网络需求。针对上述问题,提出了一种基于数字孪生技术和多智能体强化学习的算力需求预测与动态资源分配联合算法,首先建立无人机空地网络模型,之后搭建其数字孪生网络并基于长短时记忆网络预测网络算力需求,最后基于多智能体强化学习算法实现算力资源的动态分配。仿真结果表明,所提算法可以有效改善网络性能。
【关键词】无人机空地网络;长短时记忆网络;多智能体强化学习;数字孪生
doi:10.3969/j.issn.1006-1010.20240905-0002
中图分类号:TN929. 11 文献标志码:A
文章编号:1006-1010(2024)09-0116-08
引用格式:李书缘,张敏,曾凡喾,等. 无人机空地网络算力资源预测与分配联合算法研究[J]. 移动通信, 2024,48(9): 116-123.
LI Shuyuan, ZHANG Min, ZENG Fanku, et al. A Unified Approach to Computing Resource Prediction and Allocation in UAV Air-Ground Networks[J]. Mobile Communications, 2024,48(9): 116-123.
0 引言
全球无缝覆盖是6G的关键技术方向,地面网络与非地面网络的互联可以持续为用户提供高质量移动宽带服务[1]。空天地海一体化网络主要由天基网络、空基网络、地基网络、海基网络共同组成,相对于传统地基网络,其网络性能显著提升。
空地网络是空天地海一体化网络的关键组成部分,一般由地面基站和空中无人机基站构成,如图1无人机空地网络示意图。无人机(UAV, Unmanned Aerial Vehicle)具有低成本、快速部署、易于操控的特点[2],常用于支撑地面基站稀疏的偏远地区[3]、短时热点区域[4]、应急灾害区域[5]的通信,可以通过部署无人机基站搭建空地网络,提高网络覆盖率,保障用户服务质量。
但是,引入无人机后空地网络动态性增强、拓扑变化复杂,为系统建模和仿真都带来了难度,传统方法无法满足网络需求。针对上述问题,本文面向无人机空地网络场景,提出了一种基于数字孪生技术和多智能体强化学习的算力需求预测与动态资源分配联合算法。数字孪生技术通过数字化创建物理网络的虚拟表示来实现模拟和预测,可以实现成本高效的实验和性能最优的管理[6],将数字孪生技术应用于网络管理,是6G的技术发展趋势之一[8]。多智能体强化学习算法常用于解决网络资源分配问题[8-11]。
本文的主要研究工作如下:
(1)设计无人机空地网络仿真场景,实现通信系统的建模,该系统主要由地面基站、无人机基站、用户以及信道共同构成。
(2)搭建上述无人机空地网络模型的数字孪生网络,引入长短时记忆网络(LSTM, Long-Short Term Memory)预测用户位置,据此计算用户算力需求情况。
(3)提出基于多智能体强化学习(MADDPG, Multi-Agent Deep Deterministic Policy Gradient)的算力资源动态分配算法,由数字孪生网络调用该算法实现对算力资源的动态按需分配。仿真结果表明,本文提出的算力需求预测与动态资源分配联合算法可以提升网络性能。
1 系统建模
1.1 场景设计与问题描述
本文考虑一种无人机基站辅助地面基站完成AI服务的通信场景,当用户向地面基站申请AI服务时,地面基站可直接提供本地存储的AI模型,也可以下载无人机基站存储的AI模型。系统综合利用空地网络的计算资源、存储资源、通信资源保障用户服务质量。
对于某地面基站稀疏的通信场景,假设该场景内有X个地面基站,现部署Y架无人机空中基站辅助地面基站完成AI计算业务,不考虑无人机基站之间的协同通信及相互干扰,地面基站之间可相互协作,无人机基站与地面基站之间可相互协作,不同的基站协作组之间互不干扰。场景内共A个用户,全部用户所需的AI模型共个版本,其中M为模型种类,N为不同种类模型的不同精度的版本数,用于满足不同用户的需求。每个地面基站存储的模型种类为,且有,而每个无人机基站均可存储全部模型。图1、图2为上述场景示意图:
通信过程中,地面基站和无人机基站将为接入用户分配算力资源和带宽资源,用户随时间进行布朗运动,针对这一场景,本文基于数字孪生技术和多智能体强化学习,提出一种算力需求预测与动态资源分配联合算法。
1.2 系统建模
本文研究的空地网络主要包括用户、基站以及通信信道,其中,基站包括地面基站以及无人机基站。
(1)用户建模
网络中所有用户在通信过程中互不干扰,其初始位置随机分布于网络区域内,之后随时间遵循布朗随机移动轨迹模型进行移动,见式(1),公式中各变量的含义见表1。
(2)基站建模
地面基站以等间隔的方式部署于区域中心线上,各基站之间的距离为L。
无人机基站的部署位置通过K-Means算法确定:首先在区域内随机放置A个用户,并随机设置无人机基站的初始位置,计算每个用户横坐标、纵坐标到该坐标的平均值,然后将该平均横纵坐标设置为新的无人机坐标,迭代至该坐标不再更新,从而实现无人机基站信号的最大覆盖。图3为某一用户分布下网络部署俯视图,为方便计算,垂直面内高度参考文献[12]设置为固定值。每轮实验中,无人机基站的坐标确定后不再更改,直到完成该轮实验,重新随机放置用户。
地面基站之间以及地面基站与无人机基站之间均可相互协作,对于用户申请的AI模型,基站的操作满足以下协同服务规则:(a)若该模型在所属地面基站中已存储,或地面基站存储了该模型的更高精度版本,则由该基站直接为用户提供服务;(b)若该模型在所属地面基站中未存储,或仅存储了改模型的低精度版本,不足以支撑用户服务,则由该基站向协作地面基站或空中无人机基站申请所需模型。
(3)信道建模
本文基于3GPP城市宏蜂窝场景[13]建立信道路径损耗模型,主要考虑阴影衰落和快衰落。在通信过程中,信号经基站发出,经过多个传播及衰减阶段后由终端接收,其基本路径损耗模型满足式(2):
其中,表示路径损耗(PL,PathLoss),单位为dB,式(2)中d2D为俯视图二维空间中基站与用户之间的距离,为临界点距离,由具体的场景决定,PL1与PL2分别通过式(3)及式(4)求得,其中d3D为三维空间中基站与用户之间的距离,fc为信号频率,hBS为基站高度,hUT为用户端高度。
2 联合算法
数字孪生(DT, Digital Twin)技术是6G的关键技术之一[7-8],其核心在于将物理实体映射至虚拟数字域,数字孪生虚拟实体与原物理实体可通过实时数据互通互联[14]。构建空地网络的数字孪生网络,能够实现对空地网络全生命周期的模拟和仿真。LSTM算法是一种递归神经网络,擅长处理时间序列数据,能够捕捉数据的长期规律,常用于位置预测[15-17]。MADDPG算法能够同时考虑多个智能体的行动策略,常用于协作场景的算法训练[18]以及处理网络的资源分配问题[19-20]。
本文提出的联合算法包括基于数字孪生技术的算力需求预测算法以及基于多智能体强化学习的算力资源动态分配算法。通过搭建数字孪生网络,引入LSTM算法对用户的位置进行预测,可实现对空地通信网络算力需求的预测。根据算力需求预测结果调用MADDPG算法,可实现对空地通信网络算力资源的动态分配。上述联合算法架构图如图4所示。
2.1 基于LSTM和DT的算力资源需求预测算法
本文研究的算力资源需求预测算法分为两部分:第一部分为基于LSTM的用户位置预测,第二部分为基于数字孪生的算力资源需求预测。
在第一部分中,将用户的位置信息作为输入信息,经过模型前向传播计算得出用户位置预测结果,再与实际位置信息比较计算损失值,通过反向传播不断调整模型参数以最小化损失值。每一轮训练的损失值通过式(5)求得,为一轮中所有真实位置与预测位置间欧氏距离的均方误差,其中n为一轮训练中参与计算的位置总数,Ptrue为真实位置,Ppre为预测位置。
位置预测算法的训练逻辑如图5。
在第二部分中,将用户预测位置输入数字孪生网络,计算得到信道状态,据此计算各用户的算力需求情况,为用户分配提供服务的基站,各用户算力需求情况通过向量 表示,其定义为:
2.2 基于MADDPG的算力资源动态分配算法
本文研究的算力资源动态分配算法基于MADDPG设计并实现。
该算法为网络中的每个基站都配备一个智能体,每个智能体都具有一个评论家网络和演员网络,该算法以用户算力需求情况为输入。训练过程共包含E轮迭代,在第j轮迭代过程中,评论家网络的输入为智能体的动作,即各基站对用户算力的分配策略,定义如下:
根据式(8)计算该策略的奖励值:
作为每轮训练的效果反馈,并将其存储至训练经验池。演员网络的输入为当前智能体的状态,其输出是智能体下一步的动作,即根据反馈调整后的新算力分配策略 。多个智能体的评论家网络与演员网络协同配合,经训练后可生成符合要求的算力资源动态分配算法。该算法以用户算力需求情况 为输入,以算力分配策略为输出,算法通过与外部环境进行交互得到反馈,根据反馈对算法的参数进行调整,训练逻辑见图6。
其中,奖励值是每一轮训练结果的评判分数,智能体将根据该分数修正每轮训练的动作。其大小反映了该轮训练结果的优劣,若训练结果不符合要求则扣分,反之,若训练结果符合要求则加分。针对1.1节中设计的实验场景,考虑将基站提供的AI模型版本匹配情况、各用户的时延大小以及各用户时延是否均衡作为计算奖励的参考因素:
(1)基站提供的AI模型服务情况需满足1.2节的基站协同服务规则。若基站提供的AI模型与用户所需模型类型不匹配,或其计算精度低于用户所需的模型精度,则扣分;若基站提供的AI模型与用户所需模型类型相匹配,且计算精度不低于用户所需的模型精度,则加分。
(2)各用户时延大小一定程度上反映了基站提供的用户服务质量。时延包括下行时延和计算时延。若用户时延过大,表示该算力分配方案不符合要求,另外,若用户时延过小,表示此时的模型出现了过拟合,则扣分;若用户时延在合适的范围内,则加分。
(3)各用户时延的极差一定程度上反映了基站为用户提供的服务是否均衡。若极差过大,表示该算力分配方案不符合要求,另外,若极差过小,表示此时的模型出现了过拟合,则扣分;若极差在合适的范围内,则加分。
奖励计算公式见式(8),各参数的含义见表2:
3 仿真结果及分析
3.1 仿真设计
仿真过程分为两个阶段,共运行S=S1+S2步。第一阶段为准备阶段,共运行S1步,空地网络通信系统模型直接运行,用于生成用户运动轨迹,作为数字孪生网络中算力需求预测算法的输入数据。第二阶段为实验阶段,共运行S2步,首先由数字孪生网络调用基于LSTM的预测算法,基于前S1步的结果预测用户位置,然后由该数字孪生网络根据预测的位置对算力资源需求进行预测,最后该数字孪生网络可据此调用算力资源动态分配算法,为用户分配合理的算力资源及AI模型,并计算奖励值以评判网络性能。仿真共运行100轮,参数见表3:
3.2 仿真结果
(1)算法训练结果
1)基于LSTM和DT数字孪生的的算力资源需求预测算法
该算法基于LSTM算法进行训练,其训练集和测试集的训练结果如图7所示,损失值在训练过程中逐渐减小,最终稳定在某一较小的值,说明算法训练完成。数字孪生网络可调用该算法实现对算力资源需求的预测。
2)基于强化学习MADDPG的算力资源动态分配算法
该算法基于MADDPG算法进行训练,涉及多个奖励以及评论家网络和演员网络,其训练结果如图8所示,可见评论家网络与演员网络的损失值输出趋于稳定,同时总奖励、版本匹配奖励、时延大小奖励以及时延均衡奖励均稳定在某一较大的值,说明算法训练完成。数字孪生网络可调用该算法实现对算力资源的动态分配。
(2)算法性能验证结果及分析
为了验证联合算法的性能,共设置四组实验:1)第一组,基于网络管理经验的固定算法,根据数字孪生网络给出的预测结果,根据经验进行策略生成,曲线标签为“Fixed Algo+Prediction”;2)第二组,基于MADDPG的算力资源动态分配算法,根据数字孪生网络给出的预测结果,调用算法生成决策,曲线标签为“MADDPG + Prediction”;3)第三组,不对网络进行预测,直接调用固定算法,曲线标签为“Fixed Algo”;4)第四组,不对网络进行预测,直接调用算力资源动态分配算法生成决策,曲线标签为“MADDPG”。
取S2=30进行100轮仿真,共3 000步,对每轮仿真的奖励输出结果求和得到总奖励,记录每步的版本匹配奖励、时延大小奖励、时延均衡奖励,为了对比算法性能,将每一步的奖励值叠加至前一步并绘图,如图9所示,图中第500步的奖励值为前500步奖励值的总和。由图9(a)可知,联合算法的性能最优,不含预测算法的算力资源动态分配算法性能次之,二者性能均优于经验算法,含预测算法的经验算法性能优于不含预测算法的经验算法。由图9(b)至图9(d)可知,联合算法的版本奖励分数较高,但时延均衡奖励较经验算法更低,这是因为经验算法更注重各用户通信时延的均衡,但因此也导致各用户时延大小评分均低于算力资源动态分配算法。综上所述,使用联合算法可以显著提高AI模型版本匹配率,降低时延大小,能在一定程度上保障各用户通信时延的均衡。
4 结束语
本文针对无人机空地网络场景构建了由地面基站、无人机基站、用户、信道共同构成的通信系统模型,并搭建了该网络的数字孪生网络。通过在数字孪生网络中引入LSTM算法实现对用户算力资源需求的预测,并基于MADDPG算法实现对网络算力资源的动态分配。仿真结果表明,本文提出的基于数字孪生技术和多智能体强化学习的算力需求预测与动态资源分配联合算法可以有效提高AI模型版本匹配率,降低时延大小,能在一定程度上保障各用户通信时延的均衡。
本文提出的算力资源动态分配算法仍存在改进空间,可进一步考虑无人机在三维空间内的移动性对系统带来的影响,以及多无人机组网对地面通信系统的辅助作用。
参考文献:(上下滑动浏览)
[1] ITU-R. Future technology trends of terrestrial International Mobile Telecommunications systems towards 2030 and beyond[R/OL]. (2022-11)[2024-7-16]. https://www.itu.int/dms_pub/itu-r/opb/rep/R-REP-M.2516-2022-PDF-E.pdf.
[2] 鞠宏浩,程楷钧,邓彩连,等. 无人机空地网络研究综述[J/OL]. 西南交通大学学报: 1-14[2024-06-27].
[3] 王若旭. 空地通信系统中协作无人机基站部署方法研究[D]. 武汉: 华中科技大学, 2022.
[4] 龙新南. 面向应急通信的无人机网络用户切换技术研究[D]. 北京: 北京邮电大学, 2024.
[5] Xu Z. Application Research of Tethered UAV Platform in Marine Emergency Communication Network[J]. Journal of Web Engineering, 2021,3(20): 491-511.
[6] Zhu Y, Chen D, Zhou C, et al. A Knowledge Graph Based Construction Method for Digital Twin Network[C]//2021 IEEE 1st International Conference on Digital Twins and Parallel Intelligence (DTPI). IEEE, 2021: 362-365.
[7] ITU-R. Framework for 2030 and Beyond[R/OL]. (2023-6-28)[2024-7-16]. https://www.itu.int/md/R19-SG05-C-0131.
[8] Xu J, Liu X, Zhu X. Deep Reinforcement Learning Based Computing Offloading and Resource Allocation Algorithm for Mobile Edge Networks[C]//2020 IEEE 6th International Conference on Computer and Communications (ICCC). IEEE, 2020: 1542-1547.
[9] Bai W, Qian C. Deep Reinforcement Learning for Joint Offloading and Resource Allocation in Fog Computing[C]//2021 IEEE 12th International Conference on Software Engineering and Service Science (ICSESS). IEEE, 2021: 131-134.
[10] Abdulazeez D, Askar S. Offloading Mechanisms Based on Reinforcement Learning and Deep Learning Algorithms in the Fog Computing Environment[J]. IEEE Access, 2023(11): 12555-12586.
[11] Kumaran K, Sasikala E. Deep Reinforcement Learning algorithms for Low Latency Edge Computing Systems[C]//2023 3rd International conference on Artificial Intelligence and Signal Processing (AISP). IEEE, 2023: 1-5.
[12] Al-Hourani A, Kandeepan S, Lardner S. Optimal LAP Altitude for Maximum Coverage[J]. IEEE Wireless Communications Letters, 2014,12(3): 569-572.
[13] 3GPP TR. 38.901 V16.1.0. Study on channel model for frequencies from 0.5 to 100 GHz[S]. 2020.
[14] Singh M, Fuenmayor E, Hinchy E, et al. Digital Twin: Origin to Future[J]. Applied System Innovation. 2021,4(2): 36.
[15] Du G, Liu H, Tian X. High-precision Position Predictive Control of Mobile Robot Based on LSTM Algorithm[C]//2020 Chinese Automation Congress (CAC). 2020: 3798-3803.
[16] Dong Y, Arslan T, Yang Y. An Encoded LSTM Network Model for WiFi-based Indoor Positioning[C]//2022 IEEE 12th International Conference on Indoor Positioning and Indoor Navigation (IPIN). IEEE, 2022: 1-6.
[17] Inoue M, Tang S, Obana S. LSTM-Based High Precision Pedestrian Positioning[C]//2022 IEEE 19th Annual Consumer Communications & Networking Conference (CCNC). IEEE, 2022: 675-678.
[18] Zhang Y, Zhao E. Design of MADDPG Capture Algorithm for Multiple UAV Cooperation[C]//2023 IEEE International Conference on Mechatronics and Automation (ICMA). IEEE, 2023: 2021-2026.
[19] Tilahun F, Kang C. Attention Mechanism-Empowered MADDPG for Distributed Resource Allocation in Cell-Free Mobile Edge Computing[C]//2024 IEEE 21st Consumer Communications & Networking Conference (CCNC). IEEE, 2024: 1106-1107.
[20] Huang X, He L, Zhang W. Vehicle Speed Aware Computing Task Offloading and Resource Allocation Based on Multi-Agent Reinforcement Learning in a Vehicular Edge Computing Network[C]//2020 IEEE International Conference on Edge Computing (EDGE). IEEE, 2020: 1-8.
★原文刊发于《移动通信》2024年第9期★
doi:10.3969/j.issn.1006-1010.20240905-0002
中图分类号:TN929. 11 文献标志码:A
文章编号:1006-1010(2024)09-0116-08
引用格式:李书缘,张敏,曾凡喾,等. 无人机空地网络算力资源预测与分配联合算法研究[J]. 移动通信, 2024,48(9): 116-123.
LI Shuyuan, ZHANG Min, ZENG Fanku, et al. A Unified Approach to Computing Resource Prediction and Allocation in UAV Air-Ground Networks[J]. Mobile Communications, 2024,48(9): 116-123.
李书缘:北京邮电大学信息与通信工程学院在读硕士研究生,主要研究方向为无线通信与系统仿真、数字孪生等。
张 敏:武汉船舶通信研究所信息平台事业部工程师,硕士毕业于西南交通大学信号与信息处理专业,主要研究方向为5G/6G无线通信技术军事化应用研究和设计。
曾凡喾:武汉船舶通信研究所信息平台事业部工程师,硕士毕业于武汉大学电路与系统专业,主要研究方向为5G专网系统设计。
高月红:北京邮电大学信息与通信工程学院副教授、博士生导师,主要研究方向为无线通信系统理论与技术、网络演算理论与应用等。
《移动通信》投稿方式为在线投稿
请您登录网页投稿系统
链接地址:http://ydtx.cbpt.cnki.net