LLM2D

摘要

arXiv:2302.11761v2 公告类型: 替换摘要：本文研究具有间歇状态信息的MDPs。我们考虑控制器通过不可靠的通信信道感知过程的状态信息的情况。在整个时间段内状态信息的传输被建模为一个伯努利衰减过程。因此，问题是在状态信息丢失的情况下选择动作的最优策略。我们首先将问题形式化为信念MDP，以建立结构结果。系统地研究了状态信息丢失对预期总折现收益的影响。然后，我们重新将问题形式化为一个树结构的MDP，其状态空间组织成树形结构。为高效找到近最优策略，我们开发了树结构MDP的两个有限状态逼近方法。最后，我们提出了一个嵌套价值迭代算法，该算法被证明比标准价值迭代更快。数值结果证明了我们方法的有效性。