LLM2D

摘要

我们提出了一种具有可扩展框架的解决方案，以应对获取现实世界操作技能的挑战。我们认为，确定一个能够利用大规模数据集的适当预测目标对于实现高效和普遍的学习至关重要。因此，我们提出利用3D流作为理想的预测目标，该流代表了感兴趣对象上3D点的未来轨迹。为了利用可扩展的数据资源，我们将注意力转向人类视频。我们首次开发了一种基于大规模RGBD人类视频数据集的语言条件3D流预测模型。我们预测的流提供了可操作的指导，从而在现实世界场景中促进了零样本技能迁移。我们通过基于闭环流预测的策略部署了我们的方法。值得注意的是，在没有任何域内微调的情况下，我们的方法在零样本人类到机器人技能迁移中达到了81%的成功率，涵盖了6个场景中的18项任务。我们的框架具有以下优点：(1) 可扩展性：利用跨实体数据资源；(2) 广泛应用：多种对象类别，包括刚性、关节和软体；(3) 稳定的技能迁移：提供可操作指导，推理域差距较小。代码、数据和补充材料可在https://general-flow.github.io获取。