点击蓝字 关注我们↑↑↑
DIGITAL TWIN
如果您不希望错过文章,就加个星标吧!
本期阅读
文章信息
论文《Automated guided vehicle dispatching and routing integration via digital twin with deep reinforcement learning》于2024年2月发表于《Journal of Manufacturing Systems》期刊。本文由北京理工大学的 Lixiang Zhang, Chen Yang, Yan Yan等人共同完成。本文提出了一种基于数字孪生(DT)增强的深度强化学习优化框架,用于整合自动化引导车(AGV)的调度和路径规划,以提高智能生产物流系统的灵活性和适应性。
DOI: https://doi.org/10.1016/j.jmsy.2023.12.008
引用本文:
Lixiang Zhang, Chen Yang, Yan Yan, Ze Cai, Yaoguang Hu.Automated guided vehicle dispatching and routing integration via digital twin with deep reinforcement learning,Journal of Manufacturing Systems, Volume 72,2024,Pages 492-503,ISSN 0278-6125, https://doi.org/10.1016/j.jmsy.2023.12.008.
文章阅读
Automated guided vehicle dispatching and routing integration via digital twin with deep reinforcement learning
Lixiang Zhang a, Chen Yang b, Yan Yan a, Ze Cai a, Yaoguang Hu a*
a Lab of Industrial and Intelligent System Engineering, Beijing Institute of Technology, Beijing 100081, China
b School of Cyberspace Science and Technology, Beijing Institute of Technology, Beijing 100081, China
摘要
在个性化需求的驱动下,制造业已朝着高度灵活性和适应性发生了重大转变。然而,在智能生产物流系统中,考虑到自动导引车(AGV)路径规划存在时空及运动学方面的约束时,其调度优化工作依旧颇具挑战性,这限制了该技术在不断发展的工业应用中的拓展。
在此背景下,本文提出了一个基于数字孪生(DT)增强的深度强化学习优化框架,旨在从横向和纵向两个层面实现自动导引车调度与路径规划的集成。
首先,所提出的框架利用车间的数字孪生模型来提供一个能紧密模拟实际制造流程的仿真环境,使自动导引车调度智能体能够在贴合实际的设定下接受训练,进而降低在特定车间环境下得出不切实际解决方案的风险,并避免耗时的反复试错过程。
随后,将带有路径规划问题的自动导引车调度建模为马尔可夫决策过程,以优化延迟时间和能耗。开发了一种基于计数探索的改进型对决双深度 Q 网络算法,通过与高保真数字孪生模型进行交互来学习更优的调度策略,该数字孪生模型集成了采用 A * 算法的静态路径规划智能体以及运用深度确定性策略梯度的动态避碰智能体,以此来防止拥堵和死锁情况的发生。
实验结果表明,相较于四种前沿方法,我们所提出的方法在延迟时间更短、能耗更低以及稳定性更佳等方面表现更优。该方法为在制造流程的决策与优化中运用数字孪生和强化学习展现出了巨大的潜力。
关键词
调度,路径规划,数字孪生,强化学习,自动导引车
Fig. 1. The DT-enhanced DRL-based optimization framework.
1. 研究背景
研究问题:随着个性化产品需求的增加,制造业面临质量、成本和交付方面的挑战。自动化引导车(AGV)在智能生产物流系统(IPLS)中的应用被广泛用于降低成本和提高生产灵活性。然而,AGV调度优化在考虑空间-时间约束和运动学约束时仍具挑战性,限制了行业应用的发展。本文旨在解决AGV调度和路径规划问题,以提高生产物流系统的灵活性和适应性。
研究难点:现有研究在理论与工业应用之间存在差距,主要体现在两个方面:一是理论研究中通常简化了AGV的运动学约束,导致解决方案无法满足实际的空间-时间约束和运动学要求,从而在IPLS中产生局部拥堵或死锁;二是传统方法如精确算法、启发式规则和元启发式算法在特定环境下可能得到最优或可行解,但在保持性能、响应性和适应性之间的平衡方面存在挑战。此外,深度强化学习(DRL)算法需要数据丰富且安全的模拟环境来支持基于DRL的代理训练,而构建高保真模拟环境对于AGV调度和路径规划至关重要。
文献综述:文章回顾了AGV调度与路径规划的研究进展,指出许多研究在简化约束条件下探讨了AGV调度问题,但往往忽略了AGV的运动学约束,导致理论上的调度解决方案在工业环境中不切实际。同时,文章也提到了数字孪生(DT)和强化学习(RL)在制造业中的应用,DT技术通过有效同步物理和虚拟空间,为生产过程的组织和管理提供了新的视角,而结合DRL可以降低训练成本并提高适应性。
2. 研究方法
数字孪生增强的深度强化学习优化框架:提出了一种基于数字孪生(DT)增强的深度强化学习(DRL)优化框架,用于整合自动化引导车辆(AGV)的调度和路径规划。该框架利用数字孪生模型提供一个高保真的模拟环境,以模拟实际的制造过程,从而降低训练AGV调度代理时发现不切实际解决方案的风险,并防止耗时的试错过程。
马尔可夫决策过程(MDP)建模:将AGV调度与路径规划问题建模为MDP,以优化延迟和能耗。通过与高保真数字孪生模型的交互,开发了一种改进的双层深度Q网络算法,以学习更好的调度策略。
改进的双层深度Q网络算法:提出了一种改进的双层深度Q网络算法,该算法结合了基于计数的探索策略,以学习更好的调度策略。该算法通过与静态路径规划代理(使用A*算法)和动态碰撞避免代理(使用深度确定性策略梯度)的集成,防止了拥堵和死锁。
3. 实验设计
实验环境:实验在Python 3.8环境下进行,使用TensorFlow 2.2和Pytorch 1.9分别支持D&BRM代理和DCA代理。数字孪生模型在Unity 2019.2.4f 1开发平台上构建,使用C#语言。代理之间的通信通过TCP/IP协议实现。
实验设置:在考虑冲突自由路径规划(CFR)问题的AGV调度与电池更换管理(D&BRM)中,制造系统由十台机器、两个仓库和一个电池更换站组成。实验基于Poisson过程生成动态任务的到达时间,并使用指数分布定义间隔时间。加载和卸载位置使用均匀分布选择,部件重量随机生成。
参数敏感性分析:研究了不同学习率和折扣因子组合对算法性能的影响。通过生成500个任务并运行五个AGVs来评估性能,结果表明在折扣因子为0.9和学习率为1.0 × 10^-4时,算法获得最佳平均奖励。
4. 实验结果与分析
性能比较:与四种基线方法(最小等待时间、深度Q网络、双深度Q网络和双层双深度Q网络)进行比较,结果表明所提出的ID 3QN算法在延迟和能耗方面均优于其他方法。在延迟方面,ID 3QN算法的改进率分别为76.51%、83.83%、76.71%和27.70%。在能耗方面,ID 3QN方法的改进率分别为17.96%、10.35%、10.55%和0.05%。
适应性分析:通过在数字孪生环境中训练代理,可以防止DRL代理在训练过程中生成的不良解决方案影响实际的智能生产物流系统(IPLS),确保系统的安全性。此外,实验结果表明,集成CFR的数字孪生增强代理比未考虑CFR的代理具有更好的适应性。
5. 总体结论
研究发现:本研究提出的基于数字孪生增强的深度强化学习优化方法,有效解决了自动化引导车辆调度和电池更换管理问题,缩短了延迟并有效降低了能耗。该方法通过集成调度和路径规划,提高了调度解决方案在工业应用中的适应性。
解释与分析:研究开发的改进双层深度Q网络算法,满足了性能和适应性的关键要求。通过在数字孪生环境中进行高保真模拟,该方法填补了理论研究与工业应用之间的差距,为解决AGV调度和路径规划问题提供了有前景的解决方案。
意外发现:研究发现,数字孪生环境能够增强优化解决方案的准确性,为探索数字孪生增强的集成优化方法提供了新的视角,以应对复杂制造系统中的动态变化。
关注公众号,后台回复“论文109”即可下载原文
DigiTwin2025
相关阅读
本公众号致力于分享高质量的数字孪生与数字工程相关学术研究与知识资讯,以促进学术交流与知识传播。推送的论文内容主要来源于公开出版或在线发布的学术资源,版权归原作者所有,仅供学术交流,未经授权不得商用。如有侵权,请联系删除。
如您有优秀论文需推荐,或者成果发布、企业进展、科研交流等需求,请在公众号后台留言,或发送邮件到digitaltwin@buaa.edu.cn,与我们取得联系。感谢您的持续关注与支持!