摘要
arXiv:2502.02549v1 宣告类型: 新
摘要: 部分可观测马尔可夫决策过程(POMDPs)为在自主驾驶和机器人探索等应用中做出在不确定性下的决策提供了稳健的框架。其扩展形式$\rho$POMDPs引入了信念依赖的奖励,这使得关于不确定性进行了明确的推理成为可能。现有的针对连续空间的在线$\rho$POMDP求解器依赖于固定信念表示,限制了其适应性和改进能力——这对于信息收集等任务来说是至关重要的。我们提出了一个任何时间( anytime)求解器$\rho$POMCPOW,它能够动态改进信念表示,并且具有随着时间推移改进的正式保证。为了缓解更新信念依赖的奖励所导致的高计算成本,我们提出了一种新颖的增量计算方法。我们展示了该方法对于常见的熵估计器的有效性,计算成本减少了几个数量级。实验结果表明,$\rho$POMCPOW 在效率和解决问题的质量上都优于现有的最佳求解器。