摘要
arXiv:2502.02265v1 类型: cross
摘要:高精度控制任务给强化学习(RL)算法带来了重大挑战,经常导致次优性能,原因是网络近似不准确和样本质量不足。当任务要求代理达到精确的目标状态时,这些问题会进一步恶化,这种情况在机器人技术和其他实际应用中非常常见。我们介绍了Adviser-Actor-Critic (AAC),并旨在通过结合反馈控制理论的精度和RL的自适应学习能力来解决精度控制问题,该系统包含一个Adviser,通过对代理进行指导以优化控制动作,从而提高目标达成的精度。最后,通过基准测试,AAC 在精度关键、目标条件任务中的表现优于标准的RL算法,证明了AAC的高精度、可靠性和鲁棒性。代码可在以下链接获取:https://anonymous.4open.science/r/Adviser-Actor-Critic-8AC5。