摘要
arXiv:2410.13772v2 类型:交叉
摘要:我们研究了在不了解系统非平稳性的先验知识的情况下,非平稳强化学习(NS-RL)的问题。考虑了一种最先进的黑箱算法——MASTER,并着重于研究在哪些条件下它可以实现其既定目标。具体来说,我们证明了MASTER的非平稳性检测机制在实际的选择时间段下不会被触发,从而导致类似于随机重启算法的性能。此外,我们展示了MASTER的遗憾界虽然最优阶,在最坏情况下仍然保持在不合理大的时间段上方。为了验证这些观察结果,我们在部分平稳多臂bandits的情况下测试了MASTER算法,以及使用随机重启或利用最快变化检测重启的方法。作为基准,提出了一种简单的最优阶随机重启算法,具有非平稳性的先验知识。通过模拟验证了MASTER算法的行为,并展示了利用最快变化检测的方法更加稳健,并且在所有测试中始终优于MASTER和其它随机重启方法。