基于生成式AI与强化学习的Wi-Fi网络通算一体化方案

文摘   科学   2024-06-14 13:09   陕西  


论文分享

 GenAINet通信大模型 


大家好!今天给大家介绍一篇论文《An Integrated Communication and Computing Scheme for Wi-Fi Networks based on Generative AI and Reinforcement Learning》(基于生成式AI与强化学习的Wi-Fi网络通算一体化方案)。在这篇文章中,我们讨论了生成式模型在Wi-Fi网络中集成通信和计算的应用,重点介绍了使用生成式AI和强化学习来增强移动边缘计算(MEC)。我们提出的解决方案旨在通过结合生成扩散模型(GDM)和双延迟DDPG(TD3)算法进行卸载决策,并使用匈牙利算法进行资源分配,降低模型训练成本、处理延迟和能耗。(本推文内容由论文作者方旭明教授团队提供)

An Integrated Communication and Computing Scheme for Wi-Fi Networks based on Generative AI and Reinforcement Learning


Xinyang Du and Xuming Fang


Key Laboratory of Information Coding and Transmission, Southwest Jiaotong University


原文链接

https://arxiv.org/abs/2404.13598

作者团队主页

https://faculty.swjtu.edu.cn/xmfang/

1. 背景介绍
未来移动通信系统的不断演进正朝着通信与计算融合的方向发展,移动边缘计算(MEC)成为实现人工智能(AI)计算的重要手段。移动边缘计算 (MEC) 通过将本地密集型任务卸载到 MEC 服务器来增强无线边缘网络的计算性能 [1]。近年来,人们在任务卸载策略和资源分配的联合优化方面投入了大量的研究工作。强化学习(RL)为MEC领域的决策问题做出了重大贡献。然而边缘计算场景不同于传统的Wi-Fi性能优化场景,存在诸多问题:
  • 样本效率低。由于缺乏专家数据集,深度强化学习(DRL)模型通常需要与环境进行大量的交互,同时,高维度的特性还可能导致训练数据的稀疏性问题,增加了模型学习有效策略的难度,导致计算成本和时间消耗较高[2]。
  • 不稳定和收敛缓慢。在DRL训练过程中,不稳定性和收敛缓慢是两个显著问题,这些问题会严重影响模型的性能。训练过程中不稳定性可能导致模型在训练的不同阶段表现出显著的性能波动,使得很难评估模型的实际能力。此外,收敛缓慢意味着模型需要更长的时间才能达到预期的性能水平,增加计算资源的消耗,显著限制DRL算法在复杂任务中的有效性和实用性。
  • 数据捕捉能力受限。DRL算法在处理复杂且高维状态和动作空间的环境时可能会遇到诸多困难。首先,高维度的状态和动作空间意味着需要处理大量的变量和可能的状态组合,这使得算法在进行状态估计和决策时面临巨大的计算挑战。其次,随着维度的增加,搜索空间也急剧扩大,使得找到最优策略变得更加困难,往往需要更长的训练时间和更多的计算资源。
为了解决这个问题,文献[3]中提出了生成扩散模型(GDM)。作为一种生成式人工智能技术,它具有高表达性,能够捕获复杂的数据分布,并且可以与其他强化学习策略无缝集成,以减少所需的样本数量并增强强化学习性能[4]。GDM 利用去噪网络通过一系列估计步骤迭代收敛到真实样本的近似值 [5]。获得初始输入后,GDM通过前向扩散过程逐渐引入高斯噪声。随后,训练神经网络来预测噪声并进行反向扩散,从而完成数据和内容的恢复。该模型显着优于传统的DRL算法,并具有较高的可扩展性和灵活性,适合解决无线网络中的各种优化问题。然而,目前关于利用生成式AI与强化学习算法集成来解决Wi-Fi网络中的边缘计算卸载问题的研究文献很少。如何将生成式模型与Wi-Fi通信领域的专业知识相结合,以解决无线局域网中的边缘计算问题,是一个重要且尚未完全解决的难点。这一挑战不仅涉及生成式模型和强化学习算法的有效结合,还要求深入理解和应用Wi-Fi网络的特定特性和需求,确保边缘计算任务能够高效且可靠地卸载和执行。在此背景下,探索和发展能够集成生成式AI和强化学习的新方法,成为无线局域网边缘计算领域的关键研究方向。
2. 研究内容
为应对上述挑战,我们提出了一种基于生成式人工智能和强化学习算法的优化卸载决策和资源分配解决方案。主要贡献如下:
  • 在基于802.11ax Wi-Fi网络的通信计算一体化场景中,我们构建了多用户MEC卸载决策和资源分配系统模型。此外,根据Wi-Fi的资源分配特点,我们提出了一种利用匈牙利算法的资源分配方案。
  • 为了解决稀疏样本的问题,我们提出了一种基于生成式AI 和DRL 算法的任务卸载决策解决方案,名为Diffusion Twin Delayed DDPG (DTD3)。利用GDM作为TD3算法的策略网络来解决边缘计算卸载决策问题。这种方法显着减少了收敛时间,同时最大限度地减少了延迟和功耗的加权总和。
3. 系统模型
我们构建了一个基于802.11ax Wi-Fi的MEC边缘端架构,包括一个接入点(AP)和多个站点(STAs),如图1所示。其中,STA分为执行任务卸载到MEC服务器的计算STA和仅仅生成上行链路流量的通信STA。模型考虑了无线信道的时变特性,并在资源分配中令通信任务优先于计算任务。假设所有设备均使用802.11ax协议中的正交频分多址(OFDMA)技术进行数据传输,频谱资源被分成资源单元(RUs)。每个STA分配一个RU,不同的RU规格表示为26-tone的整数倍。基于上述场景,我们提出了一个MEC卸载决策和资源分配的优化问题,旨在最小化系统延迟和能耗。
图1 系统模型

4.基于DTD3的卸载和资源分配方案
考虑到传统强化学习算法在边缘计算场景下训练成本高、效率低的问题,我们提出了一种名为DTD3的深度扩散学习模型,用于联合解决多用户边缘网络中的卸载决策问题。如图2所示,DTD3算法的架构包括:策略网络、双重评价网络、目标策略网络、目标评价网络和经验回放缓冲区。与传统强化学习算法不同,DTD3使用基于扩散模型的扩散策略(Diffusion Policy, DP)作为策略网络。
图2 DTD3算法模型构架

在系统完成卸载决策后,我们综合考虑计算卸载用户所需的CPU计算资源量cm、任务数据量dm、任务的限制时延τm、用户的传输能力capabilitym,对卸载用户的任务优先级进行计算,为计算卸载用户进行计算资源的分配。当一个用户的信道条件越差、信噪比越小,任务数据量越大、所需CPU计算资源量越大、对时延的约束越苛刻,那么该用户的任务需求就越难以满足,因此系统应当为该类用户设置更高的优先级,并分配更多的计算资源。在通信资源分配方面,我们基于802.11ax OFDMA的资源分配特点,将通信资源的分配问题看作RU规格的分配问题。具体的通信资源分配主要分为两个步骤,第一步,先根据执行的通信任务与计算任务总数, 确定所使用的RU规格组合;第二步,根据所确定的RU规格组合,使用匈牙利算法完成RU的分配。

5.算法验证

为验证DTD3的算法性能,我们使用Python 3.7和PyTorch搭建仿真平台并进行算法训练和仿真。本文将算法模型部署在AP上进行集中训练。假设AP的位置保持固定,STA随机分布在以AP为中心、半径为20m的圆内。所有STA均通过OFDMA完成计算任务或通信任务传输。我们使用 Keenan-Motley 模型对室内路径损耗进行建模。STA的计算任务时延限制设置为任务本地计算时延的80%-120%。MEC和STA的计算能力分别为10GHz和1GHz。STA的发射功率为500mW。计算所需的CPU周期数均匀分布在900 Megacycles到1100 Megacycles之间,计算任务的数据大小均匀分布在2.4Mbits到4Mbits之间,通信任务在10Mbits到20Mbits之间,设定β至0.8。

为了验证我们算法的优越性,我们通过仿真将所提出的DTD3方案与四种基线方案的性能进行了比较。“本地计算”是指所有计算任务都在本地执行,“完全卸载”是指所有计算任务都被卸载,“随机卸载”是指AP随机决定卸载决策。上述三个基线在STA之间均匀分配RU。进一步地,“DQN”代表由DQN模型确定卸载决策,并使用匈牙利算法分配RU。服务质量(QoS)表示满足延迟限制的计算任务占计算任务总数的比例,而通信成功率表示在延迟限制内完成的通信任务占通信任务总数的比例。

图3 不同计算 STA 的算法性能:(a) 总成本与计算 STA 数量的关系,(b) QoS与计算 STA 数量的关系,(c) 通信成功率与计算 STA 数量的关系

图3a显示,总成本随着计算STA的增加而增加。DTD3 在所有方法中表现出了出色的性能。图3b表明,由于AP处的计算和通信资源有限,QoS随着计算STA数量的增加而下降。然而,在资源限制下,DTD3的QoS明显高于其他方法。图3c显示,即使计算STA数量不断增加,DTD3的通信成功率仍保持在较高水平。同样,经过训练的 DQN 模型也可以提供满足通信STA 要求的卸载决策。相比之下,由于AP的资源无法满足所有STA的需求,全卸载方案的通信成功率随着计算STA的增加而显着下降。综上可知,即使在用户数量较多、通信计算资源不充足情况下,本文所提方案能够通过合理的任务卸载决策与资源分配使MEC性能得到提高。

图4 不同 MEC 容量的算法性能:(a) 总成本与 MEC 容量的关系,(b) QoS与 MEC 容量的关系,(c) 通信成功率与 MEC 容量的关系

图4描绘了当有3个通信STA和5个计算STA时,不同MEC容量的算法的性能。图4a显示,随着MEC计算资源的增加,由于系统延迟和能耗相应减少,总成本下降。相比之下,本地计算策略的性能趋势保持相对稳定,因为它独立于MEC计算资源。DTD3 的性能明显优于其他方法。图4b说明计算STA的QoS随着MEC计算资源的增加而增加。与其他方法相比,DTD3 实现了更高的 QoS,特别是在MEC 计算资源有限的情况下。图4c显示,全卸载策略的通信成功率维持在50%左右,而随机卸载策略的通信成功率维持在85%左右。相比之下,DTD3和DQN算法的通信成功率始终保持在100%。

图5 算法收敛性分析

图5显示了当有3个通信STA、10个计算STA和10GHz MEC资源时,所提出的DTD3、DQN和SAC算法的收敛性能。DTD3算法在大约第400个轮次收敛,具有最佳的收敛性能。这归功于引入的生成扩散模型,该模型通过与 RL 框架配合,有效减少了收敛时间和训练成本。相比之下,DQN算法的收敛性和稳定性都比较差。另一方面,SAC算法由于引入了最大熵机制,表现出比DQN算法更好的收敛性能,增强了SAC的探索能力和鲁棒性。

6.总结

在本文中,我们基于802.11ax Wi-Fi网络下多STA单AP场景中的通信一场景,提出了一种基于生成式AI和DRL的卸载决策和资源分配方案。我们引入扩散模型来解决边缘计算场景中的稀疏样本问题,并提出了一种基于匈牙利算法的更适合Wi-Fi环境的通信分配方案。大量仿真结果表明,该方法可以降低系统整体能耗和时延,提高服务质量,保证通信成功率。此外,与传统的强化学习方法相比,该模型表现出优越的收敛性能。未来,我们的框架可以扩展到多智能体移动边缘系统,利用强化学习算法的分布式执行来提高系统的可扩展性和鲁棒性。

主要参考文献:

[1] D. Huang, L. Yu, J. Chen, and T. Wei, ”Research on joint computation offloading and resource allocation strategy for mobile edge computing,” Journal of East China Normal University (Natural Science), vol. 2021, no. 6, pp. 88-99, 2021.

[2] N. C. Luong, D. T. Hoang, S. Gong, D. Niyato, P. Wang, Y. Liang, and D. I. Kim, ”Applications of Deep Reinforcement Learning in Communications and Networking: A Survey,” IEEE Communications Surveys and Tutorials, vol. 21, no. 4, pp. 3133-3174, 2019.

[3] J. Sohl-Dickstein, E. A. Weiss, N. Maheswaranathan, and S. Ganguli, ”Deep Unsupervised Learning using Nonequilibrium Thermodynamics,” in International Conference on Machine Learning, 2015, pp. 2256-2265.

[4] H. Du, R. Zhang, Y. Liu, J. Wang, Y. Lin, Z. Li, N. Dusit, J. Kang, Z. Xiong, S. Cui, A. Bo, H. Zhou, I. Dong, et al., ”Beyond Deep Reinforcement Learning: A Tutorial on Generative Diffusion Models in Network Optimization,” CoRR, vol. abs/2308.05384, 2023.

[5] H. Du, R. Zhang, D. Niyato, J. Kang, Z. Xiong, D. I. Kim, X. Shen, and H. V. Poor, ”Exploring Collaborative Distributed Diffusion Based AI-Generated Content (AIGC) in Wireless Networks,” CoRR, vol. abs/2304.03446.99, pp. 1-8, 2023.

GenAINet公众号简介

GenAINet公众号由IEEE Large Generative AI Models in Telecom (GenAINet) ETI成立,由GenAINet公众号运营团队负责维护并运行。

GenAINet公众号运营团队:

孙黎,彭程晖 (华为技术有限公司)

杜清河,肖玉权,张朝阳 (西安交通大学)

王锦光,俸萍 (鹏城实验室)

:肖玉权

:张朝阳

GenAINet通信大模型
本公众号是IEEE Large Generative AI Models in Telecom (GenAINet) ETI 的中文媒体平台,介绍通信大模型相关的研究进展、业界动态、技术活动等。
 最新文章