LLM2D
非矩形 Lp 稳健马尔可夫决策过程的对偶 formulations
Dual Formulation for Non-Rectangular Lp Robust Markov Decision Processes
作者: Navdeep Kumar, Adarsh Gupta, Maxence Mohamed Elfatihi, Giorgia Ramponi, Kfir Yehuda Levy, Shie Mannor
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09432v1

摘要

arXiv:2502.09432v1 宣告类型: 新 摘要: 我们研究非矩形不确定性集的鲁棒马尔可夫决策过程(RMDPs),这类模型能够捕捉状态间的相互依赖性,不同于传统的矩形模型。虽然非矩形模型在近似中的鲁棒策略评估通常是NP难问题,但我们可以识别出一类由于其结构简洁性而避免这些复杂性障碍的$L_p$-有界不确定性集。我们进一步表明,这种类别可以分解为无穷多个\texttt{sa}-矩形$L_p$-有界集,并利用其结构特性推导出$L_p$ RMDPs的新对偶形式。这种形式提供了对手策略的关键见解,并使我们能够为非矩形RMDPs开发第一个鲁棒策略评估算法。实证结果表明,我们的方法显著优于穷举方法,为未来非矩形鲁棒MDP的研究奠定了有希望的基础。