LLM2D
基于有限状态控制器的确定性POMDPs离线求解器
A Finite-State Controller Based Offline Solver for Deterministic POMDPs
作者: Alex Schutz, Yang You, Matias Mattamala, Ipek Caliskanelli, Bruno Lacerda, Nick Hawes
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00596v1

摘要

arXiv:2505.00596v1 类型: 跨领域 摘要: 确定性部分可观测马尔可夫决策过程(DetPOMDPs)经常出现在智能体对其环境状态存在不确定性,但可以进行确定性操作和观测的问题中。在本文中,我们提出了一种基于蒙特卡洛值迭代(MCVI)算法的适应性方法——DetMCVI,该方法构建有限状态控制器(FSCs)形式的策略。DetMCVI 能高效地解决大规模问题,并在 DetPOMDPs 领域中已有的基线方法中表现出色。此外,我们还在一个真实的移动机器人森林测绘场景中验证了该算法的性能。