LLM2D

摘要

arXiv:2503.22122v1 宣告类型: cross 摘要：视觉语言模型（VLMs）已经在机器人规划中展示了非凡的能力，特别是在那些要求对环境进行全面理解以进行任务分解的长前景任务中。现有方法通常依赖于先验的环境知识或精心设计的任务特定提示，这使得它们在处理动态场景变化或意外任务条件时遇到困难，例如，机器人试图把胡萝卜放进微波炉，但发现门是关闭的。这种挑战强调了两个关键问题：适应性和效率。为了解决这些问题，本文提出了一种适应性的多代理规划框架，称为REMAC，该框架通过持续反思和自我进化实现场景无关的多机器人长前景任务规划与执行。REMAC 包含两个关键模块：一个自我反思模块，在循环中进行先决条件和后条件检查，以评估进度并细化计划，以及一个自我进化模块，根据场景特定的推理动态调整计划。它提供了几个吸引人的好处：1）机器人可以初步探索和推理环境，而无需复杂的提示设计。2）机器人可以不断反思潜在的规划错误，并基于任务特定的见解调整计划。3）经过迭代后，机器人可以召唤另一个机器人并行协调任务，从而最大化任务执行效率。为了验证REMAC的有效性，我们基于RoboCasa构建了一个多代理环境，用于长前景机器人操作和导航，并包含4个任务类别、27种任务风格和50多种不同的物体。在此基础上，我们进一步基准测试了最先进的推理模型，包括DeepSeek-R1、o3-mini、QwQ 和 Grok3，通过将成功率平均提升40%和执行效率提升52.7%高于单机器人基线，展示了REMAC的优越性。