LLM2D
rfPG:隐模型POMDP的鲁棒有限记忆策略梯度
\textsc{rfPG}: Robust Finite-Memory Policy Gradients for Hidden-Model POMDPs
作者: Maris F. L. Galesloot, Roman Andriushchenko, Milan \v{C}e\v{s}ka, Sebastian Junges, Nils Jansen
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09518v1

摘要

arXiv:2505.09518v1 宣告类型: 新 摘要: 部分可观测马尔可夫决策过程(POMDPs)在不确定性下的顺序决策中建模特定的环境。关键的是,POMDP的最优策略可能不 robust 对环境中的干扰。隐藏模型 POMDP(HM-POMDPs)捕捉一组不同的环境模型,即具有共享动作和观测空间的 POMDP。直觉是,真正的模型隐藏在一组潜在的模型中,执行时不知道会是哪一个模型。对于给定的 HM-POMDP,如果策略在每个其 POMDP 中都能实现足够的性能,则该策略是 robust 的。我们通过结合两种正交的技术来计算这样的 robust 策略:(1)一种演绎形式验证技术,通过计算 HM-POMDP 中的最坏情况 POMDP 来支持可处理的 robust 策略评估;(2)次梯度上升来优化候选策略以适应最坏情况的 POMDP。实证评估表明,与各种基线相比,我们的方法(1)生成的策略更 robust,并且能够更好地泛化到未见过的 POMDP;(2)能够扩展到包含超过十万种环境的 HM-POMDP。