LLM2D

摘要

arXiv:2502.02265v1 类型: cross 摘要：高精度控制任务给强化学习（RL）算法带来了重大挑战，经常导致次优性能，原因是网络近似不准确和样本质量不足。当任务要求代理达到精确的目标状态时，这些问题会进一步恶化，这种情况在机器人技术和其他实际应用中非常常见。我们介绍了Adviser-Actor-Critic (AAC)，并旨在通过结合反馈控制理论的精度和RL的自适应学习能力来解决精度控制问题，该系统包含一个Adviser，通过对代理进行指导以优化控制动作，从而提高目标达成的精度。最后，通过基准测试，AAC 在精度关键、目标条件任务中的表现优于标准的RL算法，证明了AAC的高精度、可靠性和鲁棒性。代码可在以下链接获取：https://anonymous.4open.science/r/Adviser-Actor-Critic-8AC5。