LLM2D
顾问-行动者-评论家:消除强化学习控制中的稳态误差
Adviser-Actor-Critic: Eliminating Steady-State Error in Reinforcement Learning Control
作者: Donghe Chen, Yubin Peng, Tengjie Zheng, Han Wang, Chaoran Qu, Lin Cheng
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.02265v1

摘要

arXiv:2502.02265v1 类型: cross 摘要:高精度控制任务给强化学习(RL)算法带来了重大挑战,经常导致次优性能,原因是网络近似不准确和样本质量不足。当任务要求代理达到精确的目标状态时,这些问题会进一步恶化,这种情况在机器人技术和其他实际应用中非常常见。我们介绍了Adviser-Actor-Critic (AAC),并旨在通过结合反馈控制理论的精度和RL的自适应学习能力来解决精度控制问题,该系统包含一个Adviser,通过对代理进行指导以优化控制动作,从而提高目标达成的精度。最后,通过基准测试,AAC 在精度关键、目标条件任务中的表现优于标准的RL算法,证明了AAC的高精度、可靠性和鲁棒性。代码可在以下链接获取:https://anonymous.4open.science/r/Adviser-Actor-Critic-8AC5。