LLM2D

摘要

arXiv:2501.18733v1 公告类型：跨领域摘要：近年来，大型多模态模型（LMMs）在视觉推理能力方面的进步以及3D特征场的语义丰富化，扩展了机器人能力的边界。这些进步在高阶推理与低阶控制策略之间架起桥梁方面具有巨大的潜力。在这项工作中，我们引入了LMM-3DP框架，该框架能够集成LMM规划器和3D技能策略。我们的方法包含三个主要视角：高阶规划、低阶控制和有效的集成。在高阶规划方面，LMM-3DP支持动态场景理解以应对环境干扰、带有自我反馈的评论代理、历史策略记忆以及失败后的重新尝试。在低阶控制方面，LMM-3DP利用语义感知的3D特征场实现精确操作。为了使高阶和低阶控制与机器人行动相协调，通过3D变压器中的联合注意力机制，用语言嵌入表示的高阶策略与3D特征场对齐，实现无缝集成。我们在真实的厨房环境中对多种技能和长视距任务进行了广泛的评估。结果显示，相比基于LLM的基本方法，低阶控制的成功率提高了1.45倍，高阶规划的准确性提升了大约1.5倍。LMM-3DP的演示视频和概述可在https://lmm-3dp-release.github.io 获取。