LLM2D
利用视觉语言模型解决零样本机器人问题
Solving Robotics Problems in Zero-Shot with Vision-Language Models
作者: Zidan Wang, Rui Shen, Bradly Stadie
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2407.19094v4

摘要

我们介绍了奇妙团队,一个多智能体视觉大型语言模型 (VLLM) 框架,旨在以零样本模式解决机器人问题。在我们的语境中,零样本意味着对于一个新的环境,我们向 VLLM 提供机器人周围环境的图像和任务描述,VLLM 输出机器人完成任务所需的行动序列。与之前需要微调流水线部分的工作(例如,在特定于机器人的数据上调整 LLM 或训练单独的视觉编码器)不同,我们的方法证明了,通过精心设计,单个现成的 VLLM 可以自主处理机器人任务的所有方面,从高级规划到低级位置提取和动作执行。至关重要的是,与单独使用 GPT-4o 相比,奇妙团队具有自我纠正能力,能够迭代地修复自身错误,使其能够解决具有挑战性的长周期任务。我们通过广泛的实验验证了我们的框架,包括在使用 VIMABench 的模拟环境中和在现实世界环境中。我们的系统展示了处理各种任务的能力,例如操作、目标到达和视觉推理,所有这些都以零样本的方式完成。这些结果强调了一个关键点:视觉语言模型在过去一年中取得了快速进展,应该被认真考虑作为许多机器人问题的支柱,以推动未来的发展。