【论文荐读】基于深度强化学习的无人船避障方法

文摘   科技   2024-01-12 10:36   江苏  


标题:A novel intelligent collision avoidance algorithm based on deep reinforcement learning approach for USV

期刊:Ocean Engineering, 287:115649, 2023.
作者:Yunsheng Fan, Zhe Sun, Guofeng Wang
单位:College of Marine Electrical Engineering, Dalian Maritime University, Dalian.

1、研究背景

水面无人艇(USV)由于具有自主性的优点,在海洋探索,环境监测和救援行动等领域具有很广泛的应用。完成上述任务需要USV具备避障能力,但现有研究中传统避障算法易陷入局部最优,而基于学习的算法缺少足够样本。为解决上述问题,论文设计了一种基于深度强化学习的避障策略

2、论文创新点:

(1)在避障的基础上将COLREGs(海上避碰原则)也纳入考虑范围,同时也考虑了速度对ship domain的大小和形状的影响;

(2)采用双重Q学习(Double Q-Learning)和优先回放策略来减小估计偏差和加快学习效率;

(3)采用了状态截断和动态区域限制的方法来加强无人船的避障表现;

(4)训练环境和实验环境中随机因素的设置

3、研究方法:

本文基于论文提出了一种基于DQN(如图1所示)的避障策略,并通过引入双重Q学习、优先回放策略、状态截断,动态区域限制等方法来改善DQN算法,进而提高无人艇的避障性能。整体算法框架如图2所示

1 DQN框架

图2 算法框架

机制1:Double   Q-Learning

DQN算法会产生过估计现象(Overestimation),为解决该问题,论文采用了双重Q学习,主要是通过使用评估网络选择出使Q值最大化的动作a*,在用目标网络求目标值时,用选出的a*去求,即

机制2:优先采样原则

智能体采集到的样本重要性不同,为了提高学习效率,论文采用了优先采样的原则:

其中,P(i)是采样的概率,k是总样本数,a用于控制优先的程度。

同时由于采取了不均衡采样,采样的样本会导致偏差。为了解决这个问题,引入了重要性采样权重。

通过结合优先采样机制和重要性采样权重平衡机制,既提高了训练效率又保证了样本的无偏性。

机制3:状态截断(state clipping)

状态截断指的是将环境的状态空间限制在一个特定的范围内,即将状态空间进行正则化处理,可以减轻训练过程中过大的梯度下降带来的影响(某些状态量的值相对于其他特征值过大或过小造成的梯度爆炸或梯度消失),增强训练的效率和鲁棒性。

机制4:动态区域限制(dynamic area restriction)

动态区域限制机制是指那些距离无人船很远位置的障碍物影响可以忽略不记,在状态空间去掉这些障碍物的信息,可以节约计算资源。

机制5:为了增加无人船的探索能力,作者在神经网络的每一层都加入了噪声。

深度强化学习设计

状态空间:

其中包括自身USV的航向角舵角速度信息,终点信息,静态障碍物信息,动态障碍物信息。

动作空间:

动作设置为离散空间,包括十一个舵角变化量。

奖励函数:奖励函数分为六个部分①到达目标点奖励 ②动态碰撞奖励 ③静态碰撞奖励 ④遵循COLREGs奖励 ⑤保持航向稳定奖励⑥航向角奖励

实验结果

每次训练USV和终点的位置都是固定的,动态障碍物船只和静态障碍物随机生成,每次训练随机产生两个静态障碍物和一个动态障碍物。如图3所示,随着训练的推进,无人艇从一开始的原地转圈,训练到69步时无人艇已经逐渐学会向目标点靠近但是会与动态船只发生碰撞,训练到176步时无人艇已经能够实现避障,但是路径不光滑,到最后的2184步时无人艇的避障路线也变得光滑。如图4所示,随着训练的推进,无人艇的航向角和舵角也趋于稳定。

3 不同训练阶段的训练效果

4 不同训练阶段无人艇的航向角和舵角

为了验证所提出的机制对DQN算法有提升,论文进行了对比实验,每个算法被使用十个随机数种子进行了十次训练。结果证明所提出的算法训练效果是最好的。

图5 对比试验

作者进行了四个测试实验,每个实验无人船的速度和障碍物的位置都不同,并与初始DQN算法进行对比,得到的结果均是作者的算法表现更优,这里只选择了一次实验进行说明

图6 测试实验

如图6所示,论文提出的NPD3QNU算法的路径更加光滑,航向更加稳定,最重要的是在避障时遵循了COLREGs,而DQN算法则没有。在如图7所示的航向角数据和舵角数据中,论文提出的NPD3QNU算法在航向上更加稳定,花费的时间也更少。

图7 舵角及航向角数据

4、结论:

论文提出了一种基于深度强化学习的新型无人船避障算法以解决无人船的避障问题。DQN算法的基础上融入了优先采样,噪声,双重学习,状态截断等机制提高算法的效率和表现,随后基于Unity建立了丰富的训练环境和测试环境。最后设置了仿真实验,仿真实验结果证明所提出的算法较DQN算法具有优越性



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章