LLM2D

摘要

我们引入了一种新颖的交互式场景探索任务，其中机器人自主探索环境并生成一个动作条件场景图 (ACSG)，该图捕获了底层环境的结构。ACSG 同时考虑了场景中的低级信息（几何和语义）和高级信息（不同实体之间基于动作的关系）。为此，我们提出了机器人探索 (RoboEXP) 系统，该系统结合了大型多模态模型 (LMM) 和显式内存设计来增强我们系统的功能。机器人会推理探索对象的“什么”和“如何”，通过交互过程积累新信息，并逐步构建 ACSG。利用构建的 ACSG，我们证明了我们的 RoboEXP 系统在促进涉及刚性物体、铰接物体、嵌套物体和可变形物体的各种现实世界操作任务方面的有效性和效率。