《农业工程学报》2024年第40卷第14期刊载了河北农业大学等单位李子康、张璠、滕桂法、李政、王梓怡与马世纪的论文——“基于深度强化学习的收割机省内协同调度优化策略”。该研究由河北省重点研发项目(项目号:21327407D)等资助。
引文信息:李子康,张璠,滕桂法,等. 基于深度强化学习的收割机省内协同调度优化策略[J]. 农业工程学报,2024,40(14):23-32.
DOI: 10.11975/j.issn.1002-6819.202401145
研究目的:
针对目前多机多地块间调度作业存在效率低、成本高等问题,该研究构建了以收割机地块间转移成本最小为目标的协同调度模型,设计了基于深度强化学习的收割机协同调度优化算法(inter-regional collaborative optimization scheduling algorithm based on deep reinforcement learning,DRL-ICOSA)。
方法:
首先分析收割机调度作业的马尔可夫决策过程,构建基于注意力机制的策略网络和价值网络,在随机采样策略中引入动态高斯噪声,以避免训练初期陷入局部最优,同时提高网络模型的鲁棒性;接着采用近端策略优化算法(proximal policy optimization,PPO)训练网络模型;最后利用测试集验证DRL-ICOSA算法,得到收割机优化调度方案。
基于有效作业时长40和24 h、农机调度中心位于作业区域中心和区域边缘的4种组合作业场景下,采用DRL-ICOSA算法、遗传算法(genetic algorithm,GA)、粒子群算法(particle swarm optimization,PSO)和模拟退火算法(simulated annealing,SA)计算调度策略并进行对比分析。
结果与结论:
试验结果表明:当调度中心位于区域中心或边缘时,有效作业时长为40 h,DRL-ICOSA算法相较于GA、PSO和SA算法,平均调度成本降幅不少于13.9%;有效作业时长为24 h,平均调度成本降幅不少于11.5%。
当作业时长为40或24 h时,调度中心位于区域中心,DRL-ICOSA算法相较于GA、PSO和SA算法,平均调度成本降幅不少于12.3%;调度中心位于区域边缘时,DRL-ICOSA算法相较于GA、PSO和SA算法,平均调度降幅不低于11.5%。
因此,有效作业时长为40或24 h、调度中心位于区域中心或边缘时,相比其他3种算法,DRL-ICOSA算法均能计算得到最低的调度成本。这一研究结果可为收割机省内协同作业提供科学合理的调度方案。
本文由丨《农业工程学报》编辑部丨精编发布
欢迎留言、分享、点赞
转载、投稿、咨询
邮箱:tcsae@tcsae.org
发布征集
欢迎广大作者、读者投稿至我刊公众号,包括但不限于创新科研成果、科技写作技巧、书籍推介、优秀科技工作者介绍、科研团队招聘/招生、行业资讯以及相关活动等农业工程领域信息。
公众号文章投稿邮箱:abe-newmedia@tcsae.org
»» 点击 阅读原文 免费获取全文