摘要
arXiv:2505.01288v2 宣告类型: replace-cross
摘要:机器人获得复杂操作技能的主要挑战之一是大规模收集机器人示范的高昂成本。相比之下,人类能够通过观察他人与环境互动而高效学习。为了弥合这一差距,我们提出了语义动作流作为核心中间表示,它可以捕获基本的空间-时间操作-物体交互,且不受表面视觉差异的影响。我们提出了ViSA-Flow框架,该框架通过从未经标记的大规模视频数据中自监督学习来获得这种表示。首先,一个生成模型在自动从大规模人-物体交互视频数据中提取的语义动作流上进行预训练,学习操作结构的稳健先验。其次,通过将先验适应目标机器人,通过对通过相同语义抽象管道处理的小规模机器人示范进行微调来高效适应。通过在CALVIN基准和实际任务上进行广泛的实验,我们证明ViSA-Flow在低数据情况下达到了最先进的性能,与以前的方法相比,它通过有效地将人类视频观察的知识转移到机器人执行中来取得优异表现。有关视频,请参见 https://visaflow-web.github.io/ViSAFLOW。