LLM2D

摘要

arXiv:2505.02216v2 通知类型: 替换摘要: 部分可观测马尔可夫决策过程（POMDPs）用于在不确定性下进行决策建模。虽然有许多近似解决POMDP的方法，但我们致力于解决学习此类模型的问题。特别是，我们对POMDP的一个子类感兴趣，在这个子类中，模型的组件，包括观测函数、奖励函数、转移函数和初始状态分布函数，可以建模为简短的概率程序形式的低复杂度概率图形模型。我们学习这些程序的策略使用LLM作为先验，生成候选的概率程序，然后测试这些概率程序与经验分布的一致性，并通过反馈进行调整。我们在一些经典的玩具POMDP问题、模拟MiniGrid领域和两个涉及部分可观测性的实际移动机器人搜索领域进行了实验。我们的结果表明，使用LLM指导低复杂度POMDP模型的构建比表 lookup POMDP学习、行为克隆或直接LLM规划更为有效。