摘要
arXiv:2411.12633v2 宣告类型: replace-cross
摘要: 在大规模变压器表现出强大的上下文学习能力之后,内部上下文模仿学习(In-Context Imitation Learning, ICIL)为机器人技术提供了一种有前途的机会。我们引入了Instant Policy,该方法仅通过一个或两个示范即可学会新任务(无需进一步训练),并通过两个关键组件实现了ICIL。首先,我们通过图表示引入了归纳偏置,并将ICIL建模为具有学习扩散过程的图生成问题,从而使系统能够对示范、观察和动作进行结构化的推理。其次,我们展示了通过使用伪示范——在模拟中生成的任意轨迹——可以作为一种几乎无限的训练数据池来训练此类模型。模拟与实际实验表明,Instant Policy能够快速学会各种日常机器人任务。我们还展示了它如何可以作为跨体态和零样本转移至语言定义任务的基础。代码和视频可以在 https://www.robot-learning.uk/instant-policy 获取。