LLM2D

摘要

鲁棒部分可观测马尔可夫决策过程（鲁棒POMDP）扩展了经典的POMDP，通过所谓的“不确定性集”来处理转移和观测概率上的额外不确定性。鲁棒POMDP的策略不仅需要基于记忆来处理部分可观测性，还需要对模型不确定性具有鲁棒性，以应对不确定性集中最坏情况下的实例。我们提出了悲观迭代规划（PIP）框架，该框架为鲁棒POMDP寻找鲁棒的基于记忆的策略。PIP在两个主要步骤之间交替进行：（1）通过不确定性集中最坏情况下的概率实例选择对抗性（非鲁棒）POMDP；（2）为该对抗性POMDP计算有限状态控制器（FSC）。我们在原始鲁棒POMDP上评估了此FSC的性能，并将此评估用于步骤（1）中选择下一个对抗性POMDP。在PIP中，我们提出了rFSCNet算法。在每次迭代中，rFSCNet通过使用针对对抗性POMDP优化的监督策略，通过循环神经网络找到一个FSC。在四个基准环境中的实证评估表明，该方法在鲁棒性方面优于几种基线方法，并且与最先进的鲁棒POMDP求解器相比具有竞争力。