摘要
arXiv:2504.15369v1 交叉类型: 交叉
摘要:视频生成模型在机器人领域展现了巨大的潜力,它们可以作为视觉规划者或策略监督者。当预先在互联网规模的数据上训练时,这些视频模型能够深刻理解与自然语言的对齐,并因此可以通过文本条件来促进对新下游行为的泛化。然而,它们可能不会对代理所处特定环境的具体特性敏感。另一方面,使用机器人行为的领域内示例训练视频模型会自然地编码环境特异性的复杂性,但可用的演示数据的规模可能不足以通过自然语言规范支持对未见任务的泛化。在这项工作中,我们研究了不同适应技术,这些技术将领域内信息与大规模预训练视频模型相结合,并探讨这些技术在多大程度上能够使机器人任务实现新颖的文本条件泛化,同时也在数据和资源考虑方面进行独立考量。我们成功地展示了在不同机器人环境中,通过少量示例数据适应强大视频模型可以成功促进对新颖行为的泛化。特别地,我们提出了一种新颖的适应策略,称为Inverse Probabilistic Adaptation,不仅能够在机器人任务和环境中一致性地实现优异的泛化性能,还能对适应数据的质量表现出鲁棒性,即使只有次优的领域内演示数据可用时,也能成功解决新颖任务。