LLM2D

摘要

arXiv:2502.09432v1 宣告类型: 新摘要: 我们研究非矩形不确定性集的鲁棒马尔可夫决策过程（RMDPs），这类模型能够捕捉状态间的相互依赖性，不同于传统的矩形模型。虽然非矩形模型在近似中的鲁棒策略评估通常是NP难问题，但我们可以识别出一类由于其结构简洁性而避免这些复杂性障碍的$L_p$-有界不确定性集。我们进一步表明，这种类别可以分解为无穷多个\texttt{sa}-矩形$L_p$-有界集，并利用其结构特性推导出$L_p$ RMDPs的新对偶形式。这种形式提供了对手策略的关键见解，并使我们能够为非矩形RMDPs开发第一个鲁棒策略评估算法。实证结果表明，我们的方法显著优于穷举方法，为未来非矩形鲁棒MDP的研究奠定了有希望的基础。