LLM2D
KALIE:无需机器人数据,通过微调视觉-语言模型实现开放世界操作
KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14066v1

摘要

arXiv:2409.14066v1 公告类型: 交叉 摘要: 构建通用机器人系统涉及有效地赋予机器人在开放世界环境中处理新对象的能力。受大规模预训练模型进展的启发,我们提出了从想象环境中的关键点功能学习(KALIE),该方法以可扩展的方式适应预训练的视觉语言模型(VLMs)用于机器人控制。KALIE不是直接生成运动指令,而是通过基于自然语言指令和场景视觉观察预测基于点的功能表示来控制机器人。VLM在带有由人类标注功能的2D图像上进行训练,无需机器人系统收集的训练数据。通过功能感知的数据合成管道,KALIE基于人类手动收集的有限示例数据自动创建大量高质量的训练数据。我们证明,KALIE仅凭50个示例数据点就能学会稳健地解决新的操作任务,且对象未曾见过。与使用预训练VLMs的基线方法相比,我们的方法始终表现出优越的性能。