摘要
arXiv:2502.02265v1 类型: 横向
摘要: 高精度控制任务给强化学习(RL)算法带来了重大挑战,经常由于网络逼近不准确和样本质量不足而导致次优性能。这些问题在任务要求代理达到精确目标状态时更为突出,这种情况在机器人技术和其他实际应用中很常见。我们引入了顾问-行为-评论家(AAC)算法,通过将反馈控制理论的精度与RL的自适应学习能力相结合,并配置了一个顾问来指导行为家改进控制动作,从而提高目标达成的精度。最后,通过基准测试,AAC 在精度关键、目标条件的任务中击败了标准的 RL 算法,展示了 AAC 的高精度、可靠性和鲁棒性。代码可在以下链接获取:https://anonymous.4open.science/r/Adviser-Actor-Critic-8AC5。