LLM2D

摘要

大多数强化学习算法将它们所处的环境视为一个静止的、孤立的、不受干扰的环境。然而，在现实世界应用中，环境会由于各种外部事件而不断变化。为了解决这个问题，我们研究了受外部时间过程影响的马尔可夫决策过程 (MDP)。首先，我们形式化了这个概念，并推导出在哪些条件下问题可以通过合适的解决方案变得易于处理。我们提出了一种策略迭代算法来解决这个问题，并对其性能进行了理论分析。我们的分析解决了 MDP 中由于非马尔可夫事件而产生的非平稳性，需要制定依赖于当前状态和先前事件历史的策略。此外，我们推导出有关算法样本复杂度的见解，并将定义外生时间过程的因素纳入已建立的界限。最后，我们进行了实验，以在一个传统的控制环境中演示我们的发现。