摘要
arXiv:2505.02216v1 宣告类型: 新
摘要: 部分可观测量马尔可夫决策过程(POMDPs)用于在不确定性条件下建模决策制定过程。虽然有许多方法可以近似求解POMDPs,但我们旨在解决学习此类模型的问题。特别是,我们对POMDPs的一个子类感兴趣,在该子类中,模型的各个组件,包括观测函数、奖励函数、转移函数和初始状态分布函数,可以被建模为短形式的概率程序中的低复杂度概率图形模型。我们学习这些程序的策略使用大规模语言模型(LLM)作为先验,生成候选概率程序,然后测试这些程序与经验分布的一致性,并通过反馈进行调整。我们对一些经典的玩具POMDP问题、模拟的MiniGrid领域以及两个涉及部分可观测性的实际移动基座机器人搜索领域进行了实验。结果显示,使用LLM指导低复杂度POMDP模型的构建比传统的表格POMDP学习、行为克隆或直接LLM规划更为有效。