LLM2D

摘要

arXiv:2505.09518v1 宣告类型: 新摘要: 部分可观测马尔可夫决策过程（POMDPs）在不确定性下的顺序决策中建模特定的环境。关键的是，POMDP的最优策略可能不 robust 对环境中的干扰。隐藏模型 POMDP（HM-POMDPs）捕捉一组不同的环境模型，即具有共享动作和观测空间的 POMDP。直觉是，真正的模型隐藏在一组潜在的模型中，执行时不知道会是哪一个模型。对于给定的 HM-POMDP，如果策略在每个其 POMDP 中都能实现足够的性能，则该策略是 robust 的。我们通过结合两种正交的技术来计算这样的 robust 策略：（1）一种演绎形式验证技术，通过计算 HM-POMDP 中的最坏情况 POMDP 来支持可处理的 robust 策略评估；（2）次梯度上升来优化候选策略以适应最坏情况的 POMDP。实证评估表明，与各种基线相比，我们的方法（1）生成的策略更 robust，并且能够更好地泛化到未见过的 POMDP；（2）能够扩展到包含超过十万种环境的 HM-POMDP。