LLM2D

摘要

arXiv:2410.13772v2 类型：交叉摘要：我们研究了在不了解系统非平稳性的先验知识的情况下，非平稳强化学习（NS-RL）的问题。考虑了一种最先进的黑箱算法——MASTER，并着重于研究在哪些条件下它可以实现其既定目标。具体来说，我们证明了MASTER的非平稳性检测机制在实际的选择时间段下不会被触发，从而导致类似于随机重启算法的性能。此外，我们展示了MASTER的遗憾界虽然最优阶，在最坏情况下仍然保持在不合理大的时间段上方。为了验证这些观察结果，我们在部分平稳多臂bandits的情况下测试了MASTER算法，以及使用随机重启或利用最快变化检测重启的方法。作为基准，提出了一种简单的最优阶随机重启算法，具有非平稳性的先验知识。通过模拟验证了MASTER算法的行为，并展示了利用最快变化检测的方法更加稳健，并且在所有测试中始终优于MASTER和其它随机重启方法。