LLM2D
外部时间过程下的马尔可夫决策过程
Markov Decision Processes under External Temporal Processes
作者: Ranga Shaarad Ayyagari, Ambedkar Dukkipati
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2305.16056v3

摘要

大多数强化学习算法将它们所处的环境视为一个静止的、孤立的、不受干扰的环境。然而,在现实世界应用中,环境会由于各种外部事件而不断变化。为了解决这个问题,我们研究了受外部时间过程影响的马尔可夫决策过程 (MDP)。首先,我们形式化了这个概念,并推导出在哪些条件下问题可以通过合适的解决方案变得易于处理。我们提出了一种策略迭代算法来解决这个问题,并对其性能进行了理论分析。我们的分析解决了 MDP 中由于非马尔可夫事件而产生的非平稳性,需要制定依赖于当前状态和先前事件历史的策略。此外,我们推导出有关算法样本复杂度的见解,并将定义外生时间过程的因素纳入已建立的界限。最后,我们进行了实验,以在一个传统的控制环境中演示我们的发现。