摘要
arXiv:2502.14365v1 宣告类型: cross
摘要:本文研究了在连续环境中Q-learning的不稳定性,这是实践中经常遇到的一个挑战。传统上,这种不稳定性被认为是由于强化学习中的回溯(bootstrapping)和回归模型误差造成的。通过使用一个代表性的强化学习基准,我们系统地通过逐步消除这些潜在的误差来源来检查回溯和模型不准确性的影响。我们的发现表明,在相对简单的基准中,Q-learning的基本任务——从政策特定的目标值中迭代学习Q函数——可能是本质上病态的,并且容易失败。这些见解对未来学习问题中Q-learning的可靠性的质疑提出了疑问。