LLM2D

摘要

arXiv:2409.12005v2 公告类型: 替换-交叉摘要: 物体操控能力是实体代理与世界互动时区别于其他技能的关键，尤其是在机器人领域。在这种情境下，预测与物体互动结果的能力至关重要。尽管基于模型的控制方法已开始用于解决操控任务，但它们在精确操控物体方面仍面临挑战。通过分析这一局限性的原因，我们发现当前世界模型在表示关键位置信息，特别是物体定位任务的目标规范方面存在不足。我们提出了一种通用方法，使基于世界模型的代理能够有效解决物体定位任务。我们为生成世界模型提出了两种变体：位置条件（PCP）和潜在条件（LCP）策略学习。特别是，LCP采用以物体为中心的潜在表示，明确捕捉目标规范的对象位置信息。这自然导致了多模态能力的出现，使得目标可以通过空间坐标或视觉目标来指定。我们的方法在多个操控环境中进行了严格评估，显示出优于当前基于模型的控制方法的性能。