LLM2D

摘要

arXiv:2502.02549v1 公告类型: 新摘要: 部分可观测马尔可夫决策过程（POMDPs）提供了一种在自主驾驶和机器人探索等应用中在不确定性下进行决策的稳健框架。其扩展 $\rho$POMDPs 引入了信念相关的奖励，允许进行显式不确定性推理。现有的针对连续空间的在线 $\rho$POMDP 求解器依赖于固定信念表示，限制了适应性和细化——这对信息收集等任务至关重要。我们提出了 $\rho$POMCPOW，这是一种任何时间的求解器，能够动态细化信念表示，并具有随时间改进的正式保证。为了减轻更新信念相关奖励的高计算成本，我们提出了一种新的增量计算方法。我们展示了其在常见熵估计器上的有效性，将计算成本大幅降低。实验结果显示，$\rho$POMCPOW 在效率和解的质量上均优于现有最先进的求解器。