摘要
我们引入了“奇妙团队”,一个多智能体视觉大型语言模型(VLLM)框架,旨在以零样本方式解决机器人问题。在我们的语境中,零样本意味着对于一个新的环境,我们向 VLLM 提供机器人周围环境的图像和任务描述,VLLM 则输出机器人完成任务所需的行动序列。与需要微调管道部分(例如,在特定于机器人的数据上调整 LLM 或训练单独的视觉编码器)的先前工作不同,我们的方法表明,通过仔细的工程设计,单个现成的 VLLM 可以自主处理机器人任务的所有方面,从高级规划到低级位置提取和行动执行。至关重要的是,与单独使用 GPT-4o 相比,“奇妙团队”具有自我纠正能力,能够迭代地修正自身错误,使其能够解决具有挑战性的长时程任务。我们通过广泛的实验验证了我们的框架,包括在使用 VIMABench 的模拟环境中以及在现实世界环境中。我们的系统展示了处理各种任务的能力,例如操作、目标到达和视觉推理——所有这些都以零样本方式完成。这些结果强调了一个关键点:视觉语言模型在过去一年中取得了快速进展,应该被认真考虑作为未来许多机器人问题的基础。