LLM2D

摘要

我们引入了“奇妙团队”，一个多智能体视觉大型语言模型（VLLM）框架，旨在以零样本方式解决机器人问题。在我们的语境中，零样本意味着对于一个新的环境，我们向 VLLM 提供机器人周围环境的图像和任务描述，VLLM 则输出机器人完成任务所需的行动序列。与需要微调管道部分（例如，在特定于机器人的数据上调整 LLM 或训练单独的视觉编码器）的先前工作不同，我们的方法表明，通过仔细的工程设计，单个现成的 VLLM 可以自主处理机器人任务的所有方面，从高级规划到低级位置提取和行动执行。至关重要的是，与单独使用 GPT-4o 相比，“奇妙团队”具有自我纠正能力，能够迭代地修正自身错误，使其能够解决具有挑战性的长时程任务。我们通过广泛的实验验证了我们的框架，包括在使用 VIMABench 的模拟环境中以及在现实世界环境中。我们的系统展示了处理各种任务的能力，例如操作、目标到达和视觉推理——所有这些都以零样本方式完成。这些结果强调了一个关键点：视觉语言模型在过去一年中取得了快速进展，应该被认真考虑作为未来许多机器人问题的基础。