基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策方法
文献类型: 中文期刊
第一作者: 杨璐
作者: 杨璐;王一权;刘佳琦;段玉林;张荣辉
作者机构:
关键词: 自动驾驶;端到端决策;深度强化学习;动作空间
期刊名称: 交通信息与安全
ISSN: 1674-4861
年卷期: 2022 年 01 期
页码: 144-152
收录情况: 北大核心 ; CSCD
摘要: 针对基于强化学习的车辆驾驶行为决策方法存在的学习效率低、动作变化不平滑等问题,研究了1种融合不同动作空间网络的端到端自动驾驶决策方法,即融合离散动作的双延迟深度确定性策略梯度算法(TD3WD)。在基础双延迟深度确定性策略梯度算法(TD3)的网络模型中加入1个输出离散动作的附加Q网络辅助进行网络探索训练,将TD3网络与附加Q网络的输出动作进行加权融合,利用融合后动作与环境进行交互,对环境进行充分探索,以提高对环境的探索效率;更新Critic网络时,将附加网络输出作为噪声融合到目标动作中,鼓励智能体探索环境,使动作值预估更加准确;利用预训练的网络获取图像特征信息代替图像作为状态输入,降低训练过程中的计算成本。利用Carla仿真平台模拟自动驾驶场景对所提方法进行验证,结果表明:在训练场景中,所提方法的学习效率更高,比TD3和深度确定性策略梯度算法(DDPG)等基础算法收敛速度提升约30%;在测试场景中,所提出的算法的收敛后性能更好,平均压线率和转向盘转角变化分别降低74.4%和56.4%。
分类号: U463.6
- 相关文献
[1]拖拉机自动导航单因子控制系统设计. 姚庆旺,李景彬,张雄楚,温宝琴. 2019
[2]大田无人农场关键技术研究现状与展望. 尹彦鑫,孟志军,赵春江,王昊,温昌凯,陈竞平,李立伟,杜经纬,王培,安晓飞,尚业华,张安琪,颜丙新,武广伟. 2022
[3]农业机械底盘智能化发展现状与展望. 杨帆,滕利,孙宜田,孙永佳,蒋振晗,侯加林. 2024
作者其他论文 更多>>
-
台风“杜苏芮”影响下华北农田洪涝遥感监测与评价
作者:段玉林;黄健熙;张帅;刘月鑫;向梦花;余强毅;吴文斌
关键词:高标准农田;一般耕地;遥感监测;洪涝灾害;抵御能力;台风“杜苏芮”
-
2024年上半年中国马铃薯市场形势回顾和后期展望
作者:周向阳;赵令卓;张晶;程国栋;邢丽玮;杨璐;吴建寨
关键词:马铃薯;生产;价格;市场形势;展望
-
2023年马铃薯市场形势回顾和2024年展望
作者:周向阳;张晶;程国栋;迟亮;杨璐;沙德剑;边文波;吴建寨
关键词:马铃薯;市场形势;展望
-
硝铵供应比对油菜光合作用的影响
作者:张珊珊;张佳祺;李银水;代晶;顾炽明;杨璐;胡文诗;秦璐;廖星
关键词:油菜;硝铵比;硝态氮;光合能力;叶肉导度
-
基于GGE双标图的长江中下游中籼迟熟区试品种丰产适应性及抗稻瘟病性评价
作者:杨璐;杨峰;刘奇颀
关键词:水稻;区域试验;GGE双标图;稻瘟病抗性;品种评价;试点评价
-
基于SAM的田块提取方法在田块平整成效评价中的应用研究
作者:郝雪丽;李会宾;段玉林;尚国琲;余强毅
关键词:遥感影像;田块平整;田块提取;SAM;ResNet
-
施用微生物肥料对我国玉米产量影响的Meta分析
作者:甘元炜;冯小杰;李永华;杨璐;宁鹏
关键词:微生物肥料;Meta分析;玉米;产量;中低产田;逆境胁迫