标题:A novel intelligent collision avoidance algorithm based on deep reinforcement learning approach for USV
1、研究背景:
(2)采用双重Q学习(Double Q-Learning)和优先回放策略来减小估计偏差和加快学习效率;
(3)采用了状态截断和动态区域限制的方法来加强无人船的避障表现;
(4)训练环境和实验环境中随机因素的设置。
3、研究方法:
本文基于论文提出了一种基于DQN(如图1所示)的避障策略,并通过引入双重Q学习、优先回放策略、状态截断,动态区域限制等方法来改善DQN算法,进而提高无人艇的避障性能。整体算法框架如图2所示:
图1 DQN框架
机制1:Double Q-Learning
机制2:优先采样原则
智能体采集到的样本重要性不同,为了提高学习效率,论文采用了优先采样的原则:
其中,P(i)是采样的概率,k是总样本数,a用于控制优先的程度。
通过结合优先采样机制和重要性采样权重平衡机制,既提高了训练效率又保证了样本的无偏性。
机制3:状态截断(state clipping)
状态截断指的是将环境的状态空间限制在一个特定的范围内,即将状态空间进行正则化处理,可以减轻训练过程中过大的梯度下降带来的影响(某些状态量的值相对于其他特征值过大或过小造成的梯度爆炸或梯度消失),增强训练的效率和鲁棒性。
机制4:动态区域限制(dynamic area restriction)
动态区域限制机制是指那些距离无人船很远位置的障碍物影响可以忽略不记,在状态空间去掉这些障碍物的信息,可以节约计算资源。
机制5:为了增加无人船的探索能力,作者在神经网络的每一层都加入了噪声。
深度强化学习设计
状态空间:
其中包括自身USV的航向角舵角速度信息,终点信息,静态障碍物信息,动态障碍物信息。
动作空间:
动作设置为离散空间,包括十一个舵角变化量。
实验结果
图4 不同训练阶段无人艇的航向角和舵角
为了验证所提出的机制对DQN算法有提升,论文进行了对比实验,每个算法被使用十个随机数种子进行了十次训练。结果证明所提出的算法训练效果是最好的。
图5 对比试验
图6 测试实验
如图6所示,论文提出的NPD3QNU算法的路径更加光滑,航向更加稳定,最重要的是在避障时遵循了COLREGs,而DQN算法则没有。在如图7所示的航向角数据和舵角数据中,论文提出的NPD3QNU算法在航向上更加稳定,花费的时间也更少。
4、结论: