摘要
具有视觉输入的大语言模型(VLMs),即视觉语言模型,能够处理状态信息作为视觉文本提示,并以文本形式响应策略决策。我们提出了LLaRA:大型语言和机器人助手,这是一个将机器人动作策略表述为对话并通过使用补充策略学习的辅助数据进行训练来提供改进的动作输出的框架。我们首先介绍了一个自动管道,用于从现有的行为克隆数据中生成对话式指令调整数据。然后,我们通过制定六个辅助任务以自监督的方式丰富数据集。用由此产生的数据集集合进行微调的VLM可以生成有意义的机器人动作策略决策。我们在多个模拟和现实世界环境中进行的实验证明了所提出的LLaRA框架的最新性能。代码、数据集和预训练模型可在https://github.com/LostXine/LLaRA获得。