LLM2D
顾问-actor-critic: 消除强化学习控制中的稳定状态误差
Adviser-Actor-Critic: Eliminating Steady-State Error in Reinforcement Learning Control
作者: Donghe Chen, Yubin Peng, Tengjie Zheng, Han Wang, Chaoran Qu, Lin Cheng
发布日期: 2/5/2025
arXiv ID: 2502.02265

摘要

arXiv:2502.02265v1 类型: 横向 摘要: 高精度控制任务给强化学习(RL)算法带来了重大挑战,经常由于网络逼近不准确和样本质量不足而导致次优性能。这些问题在任务要求代理达到精确目标状态时更为突出,这种情况在机器人技术和其他实际应用中很常见。我们引入了顾问-行为-评论家(AAC)算法,通过将反馈控制理论的精度与RL的自适应学习能力相结合,并配置了一个顾问来指导行为家改进控制动作,从而提高目标达成的精度。最后,通过基准测试,AAC 在精度关键、目标条件的任务中击败了标准的 RL 算法,展示了 AAC 的高精度、可靠性和鲁棒性。代码可在以下链接获取:https://anonymous.4open.science/r/Adviser-Actor-Critic-8AC5。