LLM2D

摘要

本研究探讨了利用各种互联网数据源从一组模板机器人行为中进行选择以执行技能的实用性。从互联网数据源学习涉及工具使用的接触丰富的技能通常具有挑战性，因为这些数据缺乏物理信息，如接触的存在、位置、区域和力。先前的工作通常使用互联网数据和基于这些数据训练的基础模型来生成低级机器人行为。我们假设这些数据和模型可能更适合从一组基本机器人行为中进行选择，以执行这些接触丰富的技能。我们探索了三种模板选择方法：查询大型语言模型，将机器人执行的视频与使用先前工作中常见的预训练视频编码器特征检索到的人类视频进行比较，以及使用基于互联网数据训练的光流编码器特征进行相同的比较。我们的结果显示，尽管缺乏视觉信息，大型语言模型作为模板选择器的能力出乎意料地强，光流编码显著优于使用更多数据训练的视频编码器，并且在各种形式的互联网数据之间存在重要的协同效应。通过利用这些协同效应，我们创建了一个使用多种互联网数据形式的模板选择器，在一组涉及工具使用的16种不同烹饪技能上实现了79%的成功率。