LLM2D

摘要

视觉语言模型 (VLM) 近年来因其在常识推理和泛化能力方面的优势被应用于机器人领域。现有工作已将 VLM 应用于从自然语言指令中生成任务和运动规划，并模拟用于机器人学习的训练数据。在本研究中，我们探索了利用 VLM 解释人类演示视频并生成机器人任务规划。我们的方法将关键帧选择、视觉感知和 VLM 推理整合到一个管道中。我们将其命名为 SeeDo，因为它使 VLM 能够“看到”人类演示并向机器人解释相应的计划，以便它能够“做”。为了验证我们的方法，我们收集了一组长时程人类视频，展示了三个不同类别的取放任务，并设计了一组指标来全面评估 SeeDo 与几个基线方法的性能，包括最先进的视频输入 VLM。实验表明 SeeDo 的性能优于其他方法。我们进一步将生成的计划部署在模拟环境和真实机器人手臂上。