摘要
部分可观察马尔可夫决策过程 (POMDP) 为不确定条件下的决策制定提供了一个结构化框架,但其应用需要高效的信念更新。顺序重要性重采样粒子滤波器 (SIRPF),也称为 Bootstrap 粒子滤波器,通常用作大型近似 POMDP 求解器中的信念更新器,但它们面临着粒子匮乏和随着系统状态维数增加而导致的计算成本高等挑战。为了解决这些问题,本研究引入了 Rao-Blackwellized POMDP (RB-POMDP) 近似求解器,并概述了在信念更新和在线规划中应用 Rao-Blackwellization 的通用方法。我们比较了 SIRPF 和 Rao-Blackwellized 粒子滤波器 (RBPF) 在一个模拟定位问题中的性能,其中代理使用 POMCPOW 和 RB-POMCPOW 规划器在 GPS 拒绝环境中导航到目标。我们的结果不仅证实了 RBPF 能够使用更少的粒子在一段时间内保持准确的信念近似,而且更令人惊讶的是,与相同计算限制下的 SIRPF 基于规划相比,RBPF 结合基于正交的积分显著提高了规划质量。