LLM2D

摘要

arXiv:2505.01288v1 宣告类型：交叉摘要：机器人获取复杂操作技能的主要挑战之一是收集大规模机器人演示的成本高昂。相比之下，人类可以通过观察他人与其环境的互动来高效学习。为了弥合这一差距，我们引入了语义动作流作为核心中间表示，捕捉关键的空间-时间操作者-对象交互，不受浅层视觉差异的影响。我们提出了ViSA-Flow框架，该框架通过未标记的大规模视频数据自我监督学习这种表示。首先，一个生成模型在从大规模人-物互动视频数据中自动提取的语义动作流上预训练，学习一个稳健的操作结构先验。其次，通过针对少量通过相同语义抽象流水线处理的机器人演示进行微调，有效地将这一先验适配到目标机器人。我们通过在CALVIN基准测试和实际任务上进行广泛的实验表明，ViSA-Flow取得了最先进的性能，特别是在低数据情况下超越了先前的方法，通过有效地将从人类视频观察中获得的知识转移到机器人执行中。视频可在https://visaflow-web.github.io/ViSAFLOW 获取。