基于强化学习的机器人底盘能量管理与路径规划优化算法

文献类型: 中文期刊

第一作者: 李潇宇

作者: 李潇宇;张君华;郭晓光;伍纲

作者机构:

关键词: 温室;路径规划;强化学习;能量管理;多目标优化

期刊名称: 农业工程学报

ISSN: 1002-6819

年卷期: 2024 年 40 卷 021 期

页码: 175-183

收录情况: EI ; 北大核心 ; CSCD

摘要: 为解决温室机器人底盘传统路径规划中因忽略地面粗糙度而导致的电池寿命缩短与利用效率低下的问题,该研究探讨了3种融合电池能量管理与路径规划的强化学习算法。首先,基于先验知识构建分级预打分奖励模型,并通过增加曼哈顿距离构建奖励函数,提高电池寿命和利用率;其次,针对传统Q-Learning(QL)算法收敛效率低、易陷入局部最优等问题,提出了自适应变步长的优化算法(adaptive multi-step q-learning,AMQL)和基于自适应改变探索率的优化算法(adaptive ε-greedy q-learning,AEQL),以提升Q-Learning算法的性能。此外,为进一步提高算法的可行性,该文将AMQL算法和AEQL算法进行融合,提出了一种自适应多步长和变ε-greedy融合算法(adaptive multi-step and ε-greedy q-learning,AMEQL),并通过仿真对比的方式,验证了AMQL和AMEQL算法相对于传统QL算法在3个不同垄道下的性能。仿真试验结果表明:AMQL相对于传统QL算法,训练平均时间降低23.74%,收敛平均迭代次数降低8.82%,路径平均拐点数降低54.29%,收敛后的平均波动次数降低14.54%;AMEQL相对于传统QL算法,训练平均时间降低34.46%,收敛平均迭代次数降低18.02%,路径平均拐点数降低63.13%,收敛后的平均波动次数减少15.62%,在400次迭代过程中,AMEQL到达最大奖励后平均每7.12次迭代波动1次,而AMQL平均每6.68次迭代波动1次。可知AMEQL训练时间最短,收敛最快,路径拐点数量最低,奖励波动最小,而AMQL次之。该算法可为机器人底盘自主路径规划提供理论参考。

分类号: TP18%TP242%S24

  • 相关文献

[1]基于混合系统理论的风光互补发电系统能量管理策略. 李青龙,赵志洋,娄序蕾,施坪. 2009

[2]里海远洋渔船无人机舱系统研究. 黎建勋,张彬. 2018

[3]一种结合限制的多任务学习策略及其应用. 何振峰,余春艳,陆昌华. 2011

[4]基于环境经济调度问题的空间自适应划分多目标优化. 伍大清,刘立,郑建国,朱君璇,赵燕. 2015

[5]玛曲县草畜平衡优化方案与管理决策初探. 张旭,冯琦胜,梁天刚. 2012

[6]干豇豆的腌渍工艺优化. 卜智斌,唐道邦,温靖,徐玉娟,余元善,傅曼琴,李俊. 2021

[7]数控机床进给机构智能设计优化系统. 刘世豪,杜彦斌,姚克恒,唐敦兵. 2017

[8]基于水量水质耦合模拟优化的渠井结合灌区多目标水资源优化配置模型与方法. 苏振辉,降亚楠,吕婧妤,徐超,陈威,李彬. 2023

[9]基于模型预测控制的菇房空调节能控制方法. 张馨,孔祥书,郑文刚,王明飞,单飞飞,鲍峰. 2024

[10]手扶式移栽机栽植机构优化设计与试验. 李慧霜,马月虹,曹新伟. 2022

[11]基于批次关联的鲜切蔬菜采购成本-召回规模联合优化. 杨信廷,王健,钱建平,邢斌,曹文琴,王贵用. 2016

[12]小型玉米脱粒机机架模态分析与优化设计. 林通,张涛,张莹,尹毅,邓兴旭,庞有伦,罗书强. 2022

[13]基于人工势场法的移动机器人路径规划研究现状与展望. 石志刚,梅松,邵毅帆,万如,宋志禹,谢铭露,李燕. 2021

[14]基于模拟退火算法的无人机山地作业能耗最优路径规划. 范叶满,沈楷程,王东,翟长远,张海辉. 2020

[15]枣树修剪机械臂的路径规划. 陈亚娅,张斌,付昱兴,付威,沈从举,金新文. 2021

[16]猪舍智能作业机器人导航技术研究进展. 岳健民,朱君,刘胤池,赵宇亮,贾楠,陈超,李斌. 2024

[17]农业机械自动导航技术研究综述. 李虎,许宁,宋裕民,孟庆山,张泉. 2023

[18]基于RTK-GPS的智能微耕机导航系统. 药林桃,罗翔,曹晓林,吴罗发,董力洪,陈立才. 2021

[19]基于蚁群算法的清扫机器人路径规划设计. 周冬冬,金诚谦,倪有亮. 2018

[20]基于改进人工势场法的农用机器人路径规划技术研究. 邵毅帆,梅松,石志刚,宋志禹,童一飞. 2023

作者其他论文 更多>>