标题:3U: Joint Design of UAV-USV-UUV Networks for Cooperative Target Hunting
1、研究背景:
(2)将运动约束问题建模为马尔可夫决策过程,并通过DQN方法进一步实现。通过联合优化无人机的位置,UUV的轨迹以及3U系统的互联性来指导水下目标搜索任务。
(3)仿真结果表明,该方案在系统资源分配和互联性之间取得了良好的平衡,具有较高的水下目标搜索成功率。
3、研究方法:
本文提出了一种联合设计的无人机/无人水面艇/无人水下潜航器(UAV-USV-UUV)网络,也称为3U网络,用于协同水下目标搜索。该3U异构系统在水下目标搜索任务中的系统模型如图1所示:
图1 面向协同目标搜索的3U网络
该系统由一架UAV、一架USV和多架UUV组成,为了提供大致的搜索范围,一架无人机作为空中监视器,飞行高度为h,搜索半径为r。采用M艘无人潜航器执行水下任务,作业深度为d。同时,无人水面艇作为无人潜航器与无人机之间的通信中继器。定义UAV坐标U = (ux, uy, uz) ,USV坐标S = (sx, sy, sz),UUV坐标G = (gx, gy, gz)以及目标坐标W = (wx, wy, wz)。UAV与USV之间的连接基于电磁(EM)通道,而UAV与USV之间的信号传输使用声学通道。当UUV接收到无人机采集到的目标的大致位置W = (wx, wy, wz)时,迅速组成猎群对目标进行追击。为了便于3U的能效,在每个时隙将UUV的当前能量状态传回无人机,无人机动态调整目标搜索区域。
(1)UAV:UAV与USV之间的通信链路被合理地建模为line of sight(LoS)路径,h与r的关系即:
(2)USV:USV作为无线通信中继器,在UAV和UUV之间传输控制和目标信息,电磁信号成功传输的概率Pc代表UAV和USV之间的连通性,即:
其中,R是信噪比(SINR),Ta是R的阈值,指数a表示路径损耗指数,pa是发射功率,σ2表示噪声功率,It表示信号干扰
对于水下连接,假设每个UUV都可以与USV和其他UUV连接,水下潜航器的连通性即为:
(3)UUV:水下声通道受水声传播衰减的支配,声路损耗与载流子频率f和距离l的关系可由下式得出:
吸收系数y和载流子频率f的关系即:
运动总能耗可以表示为EUUV=Em + Ec,其中Em运动能耗,Ec为通信能耗。
(4)目标:当目标进入搜索区域时,狩猎任务开始。假设目标能够感知到UUVs的接近,并以Vt速度逃离,即:
目标的安全半径区为r2被定义为:
如果存在UUV进入目标安全半径区的时间瞬间t,即||G(t)−W(t)|| < r2,则认为目标被UUV捕获。
此外,本文通过联合优化无人机的位置、轨迹以及互联性,提出了一种面向能量的目标搜索狩猎模型,提出能量最小公式。在3U系统中,首要目标是最小化总消耗能量EUUV。因此,3U能耗优化问题可定义为:
其中6a为无人机悬停高度约束,6b为UAV-USV连通性约束,6c为USV-UUV连通性约束,6d为环绕约束,6e为能量平衡约束。
最后,本文设计了DQN算法来解决能量优化问题,同时引导UUV对目标进行追捕。应用于UUV的DQN模型由状态、动作、奖励和Q值组成:
State:包含了所有无人系统的位置信息,目标逃跑的方向,以及无人潜航器的总航程L。
Action:动作空间定义为一组移动方向,将2π平面划分为8个离散方向。
Reward:奖励r(t)可以定义为条件函数,允许其学习广义策略行为,在一定条件下自动导航。奖励R1对应于目标在UUV搜索范围内时的环绕约束(6d),奖励R2使UUV逐步接近目标。如果系统违反了优化问题(6)中的约束,它将得到一个负奖励R3。
仿真结果
本文基于Pytorch实现了DQN方法,其中DQN的结构是用包含两个隐藏层的全连接神经网络建立的。3U系统采用了基于DQN的寻优策略,迭代次数为10的4次方。此外,讨论了学习率ξ = 0.01和ξ = 0.001,折扣系数χ = 0.95的DQN算法的性能。在本仿真中,通过与蚁群算法(ACO)的比较,验证了基于DQN的方法的外部性能。为了匹配DQN的10的4次方次迭代,在蚁群算法中使用了100个种群和100次迭代。此外,现实中通信能量Ec远小于运动能量Em,因此我们在评估部分使用Em来表示EUUV。
如图2(a)所示,DQN (ξ = 0.001)和DQN (ξ = 0.01)的能耗始终低于ACO。当h发生变化时,DQN总能找到最优路径,以最小的能量快速寻找目标,并保持连通性,证明了DQN的有效性。但随着h的增大,搜索范围变大时,目标搜索任务会变得更加复杂。因此,自DQN算法收敛以来,DQN的平均搜索时间稳步增加(ξ = 0.01)。对于蚁群算法,由于每次迭代中种群间的并行搜索机制,使得平均搜索时间相对较小。
随机产生两个静态障碍物和一个动态障碍物。如图3所示,随着训练的推进,无人艇从一开始的原地转圈,训练到69步时无人艇已经逐渐学会向目标点靠近但是会与动态船只发生碰撞,训练到176步时无人艇已经能够实现避障,但是路径不光滑,到最后的2184步时无人艇的避障路线也变得光滑。如图4所示,随着训练的推进,无人艇的航向角和舵角也趋于稳定。
图2 (a)VG为7.8kn时,不同算法在不同h下的最小总能耗EUUV与寻找最优路径的平均时间
DQN在不同VG下也总能找到能耗最小的优化路径,ACO的性能不如DQN ,此外,DQN和ACO的平均时间都由于VG的提高而稳步下降。
仿真实验进一步研究h和VG对路径连通性的影响。由于EM通道Pc和水声通道的路径连通性与UAV和USV,USV和UUV之间的距离呈负相关,因此分别在10的4次方迭代中以平均||U−S||和平均||S−G||来测量Pc和。
如图3(a)所示,不同ξ的DQN算法对路径连通性的影响差异不大,与ACO算法相比,DQN (ξ = 0.001)和DQN (ξ = 0.01)都可以获得更高的Pc和。DQN算法的平均||U−S||随着h的增大而增大,从而导致Pc的减小。此外,由于h对USV和UUV之间的连通性影响很小,DQN的平均||S−G||是光滑的。如图3(b)所示,随着VG的增长,平均||U−S||逐渐下降。这主要是因为随着VG的增大,USV行驶距离变短,因此UAV与USV之间的距离减小,Pc可以稳步提高。平均||S−G||随着VG的增大而增大。因为VG的增加会直接影响UUV和USV之间的距离,因此水下通道的连通性变差。
图3 不同h和VG下的路径连通性
4、结论: