LLM2D
视觉语言模型:从人类演示视频到机器人行动计划
VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model
作者: Beichen Wang, Juexiao Zhang, Shuwen Dong, Irving Fang, Chen Feng
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08792v1

摘要

视觉语言模型 (VLM) 近年来因其在常识推理和泛化能力方面的优势被应用于机器人领域。现有工作已将 VLM 应用于从自然语言指令中生成任务和运动规划,并模拟用于机器人学习的训练数据。在本研究中,我们探索了利用 VLM 解释人类演示视频并生成机器人任务规划。我们的方法将关键帧选择、视觉感知和 VLM 推理整合到一个管道中。我们将其命名为 SeeDo,因为它使 VLM 能够“看到”人类演示并向机器人解释相应的计划,以便它能够“做”。为了验证我们的方法,我们收集了一组长时程人类视频,展示了三个不同类别的取放任务,并设计了一组指标来全面评估 SeeDo 与几个基线方法的性能,包括最先进的视频输入 VLM。实验表明 SeeDo 的性能优于其他方法。我们进一步将生成的计划部署在模拟环境和真实机器人手臂上。