摘要
arXiv:2505.00596v1 类型: 跨领域
摘要: 确定性部分可观测马尔可夫决策过程(DetPOMDPs)经常出现在智能体对其环境状态存在不确定性,但可以进行确定性操作和观测的问题中。在本文中,我们提出了一种基于蒙特卡洛值迭代(MCVI)算法的适应性方法——DetMCVI,该方法构建有限状态控制器(FSCs)形式的策略。DetMCVI 能高效地解决大规模问题,并在 DetPOMDPs 领域中已有的基线方法中表现出色。此外,我们还在一个真实的移动机器人森林测绘场景中验证了该算法的性能。