LLM2D

摘要

arXiv:2504.03245v1 宣布类型: 新闻摘要: 在开放世界环境中实现泛化机器人移动操作具有重大挑战，由于长期规划、复杂的任务目标以及部分可观测性。解决这些挑战的一种有前景的方法是使用参数化技能库进行规划，其中任务规划器将这些技能按序排列，以实现用结构化语言（如符号事实的逻辑表达式）指定的任务目标。虽然视觉-语言模型（VLMs）可以用于将这些表达式与现实世界联系起来，但它们通常假设完全可观测性，当代理缺乏足够的信息来确定性地评估事实时，会导致次优行为。本文提出了一种新的框架，利用VLMs作为感知模块来估计不确定性并促进符号化接地。我们的方法构建了一种符号信念表示，并使用信念空间规划器生成考虑策略性信息收集的不确定性感知计划。这使代理能够有效处理部分可观测性和属性不确定性。我们在一系列需要在部分可观测环境中进行推理的挑战性现实任务上展示了我们的系统。仿真评估表明，与基于VLM的端到端规划或基于VLM的状态估计基线相比，我们的方法通过计划和执行策略性信息收集来表现出更优的性能。这项工作突显了VLMs构建信念空间符号场景表示的潜力，从而支持后续任务，如不确定性感知规划。