LLM2D
部分可观测马尔可夫决策过程的观测自适应通过退火重要重采样
Observation Adaptation via Annealed Importance Resampling for Partially Observable Markov Decision Processes
作者: Yunuo Zhang, Baiting Luo, Ayan Mukhopadhyay, Abhishek Dubey
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19302v1

摘要

arXiv:2503.19302v1 宣传类型: 新 摘要: 部分可观测马尔可夫决策过程(POMDPs)是一种在状态不确定性下的随机环境中进行顺序决策的一般数学模型。POMDPs 通常通过在线求解来解决,这使得算法能够实时适应新的信息。在线求解器通常使用基于重要性重采样的粒子滤波器来更新信念分布。由于直接从最新的观测和先前状态的理想状态分布中采样是不可行的,粒子滤波器通过预测和重采样步骤传播状态并调整权重来近似后验信念分布。然而,在实践中,当状态转换模型与后验信念分布严重不一致时,特别是在接收到的观测信息量大的情况下,重要性重采样技术往往会导致粒子稀疏化和样本贫瘠。我们提出了一种方法,通过迭代的蒙特卡罗步骤构造状态转换与最优分布之间的桥梁分布序列,更好地适应在线POMDP求解器中的噪声观测。我们的算法在多个具有挑战性的POMDP领域进行评估时,与最先进的方法相比,性能显著更优。