LLM2D

摘要

arXiv:2502.02265v1 类型: 横向摘要: 高精度控制任务给强化学习（RL）算法带来了重大挑战，经常由于网络逼近不准确和样本质量不足而导致次优性能。这些问题在任务要求代理达到精确目标状态时更为突出，这种情况在机器人技术和其他实际应用中很常见。我们引入了顾问-行为-评论家（AAC）算法，通过将反馈控制理论的精度与RL的自适应学习能力相结合，并配置了一个顾问来指导行为家改进控制动作，从而提高目标达成的精度。最后，通过基准测试，AAC 在精度关键、目标条件的任务中击败了标准的 RL 算法，展示了 AAC 的高精度、可靠性和鲁棒性。代码可在以下链接获取：https://anonymous.4open.science/r/Adviser-Actor-Critic-8AC5。