摘要
鲁棒部分可观测马尔可夫决策过程(鲁棒POMDP)扩展了经典的POMDP,通过所谓的“不确定性集”来处理转移和观测概率上的额外不确定性。鲁棒POMDP的策略不仅需要基于记忆来处理部分可观测性,还需要对模型不确定性具有鲁棒性,以应对不确定性集中最坏情况下的实例。我们提出了悲观迭代规划(PIP)框架,该框架为鲁棒POMDP寻找鲁棒的基于记忆的策略。PIP在两个主要步骤之间交替进行:(1)通过不确定性集中最坏情况下的概率实例选择对抗性(非鲁棒)POMDP;(2)为该对抗性POMDP计算有限状态控制器(FSC)。我们在原始鲁棒POMDP上评估了此FSC的性能,并将此评估用于步骤(1)中选择下一个对抗性POMDP。在PIP中,我们提出了rFSCNet算法。在每次迭代中,rFSCNet通过使用针对对抗性POMDP优化的监督策略,通过循环神经网络找到一个FSC。在四个基准环境中的实证评估表明,该方法在鲁棒性方面优于几种基线方法,并且与最先进的鲁棒POMDP求解器相比具有竞争力。