LLM2D
间歇可观测马尔可夫决策过程
Intermittently Observable Markov Decision Processes
作者: Gongpu Chen, Soung-Chang Liew
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2302.11761v2

摘要

arXiv:2302.11761v2 公告类型: 替换 摘要:本文研究具有间歇状态信息的MDPs。我们考虑控制器通过不可靠的通信信道感知过程的状态信息的情况。在整个时间段内状态信息的传输被建模为一个伯努利衰减过程。因此,问题是在状态信息丢失的情况下选择动作的最优策略。我们首先将问题形式化为信念MDP,以建立结构结果。系统地研究了状态信息丢失对预期总折现收益的影响。然后,我们重新将问题形式化为一个树结构的MDP,其状态空间组织成树形结构。为高效找到近最优策略,我们开发了树结构MDP的两个有限状态逼近方法。最后,我们提出了一个嵌套价值迭代算法,该算法被证明比标准价值迭代更快。数值结果证明了我们方法的有效性。