LLM2D

摘要

我们介绍了奇妙团队，一个多智能体视觉大型语言模型 (VLLM) 框架，旨在以零样本模式解决机器人问题。在我们的语境中，零样本意味着对于一个新的环境，我们向 VLLM 提供机器人周围环境的图像和任务描述，VLLM 输出机器人完成任务所需的行动序列。与之前需要微调流水线部分的工作（例如，在特定于机器人的数据上调整 LLM 或训练单独的视觉编码器）不同，我们的方法证明了，通过精心设计，单个现成的 VLLM 可以自主处理机器人任务的所有方面，从高级规划到低级位置提取和动作执行。至关重要的是，与单独使用 GPT-4o 相比，奇妙团队具有自我纠正能力，能够迭代地修复自身错误，使其能够解决具有挑战性的长周期任务。我们通过广泛的实验验证了我们的框架，包括在使用 VIMABench 的模拟环境中和在现实世界环境中。我们的系统展示了处理各种任务的能力，例如操作、目标到达和视觉推理，所有这些都以零样本的方式完成。这些结果强调了一个关键点：视觉语言模型在过去一年中取得了快速进展，应该被认真考虑作为许多机器人问题的支柱，以推动未来的发展。