LLM2D
生成世界模型中对象操作的位置信息表示
Representing Positional Information in Generative World Models for Object Manipulation
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.12005v2

摘要

arXiv:2409.12005v2 公告类型: 替换-交叉 摘要: 物体操控能力是实体代理与世界互动时区别于其他技能的关键,尤其是在机器人领域。在这种情境下,预测与物体互动结果的能力至关重要。尽管基于模型的控制方法已开始用于解决操控任务,但它们在精确操控物体方面仍面临挑战。通过分析这一局限性的原因,我们发现当前世界模型在表示关键位置信息,特别是物体定位任务的目标规范方面存在不足。我们提出了一种通用方法,使基于世界模型的代理能够有效解决物体定位任务。我们为生成世界模型提出了两种变体:位置条件(PCP)和潜在条件(LCP)策略学习。特别是,LCP采用以物体为中心的潜在表示,明确捕捉目标规范的对象位置信息。这自然导致了多模态能力的出现,使得目标可以通过空间坐标或视觉目标来指定。我们的方法在多个操控环境中进行了严格评估,显示出优于当前基于模型的控制方法的性能。