摘要
arXiv:2502.09649v1 公告类型: 新
摘要: 视觉运动模仿学习使具备身体的代理可以从视频示范和机器人本体感觉中有效地习得操作技能。然而,随着场景复杂性和视觉干扰的增加,现有在简单场景中表现良好的方法在性能上会下降。为了解决这一挑战,我们引入了Imit Diff——一种具有双分辨率融合的语义引导扩散变换器,用于模仿学习。我们的方法利用视觉语言基础模型的前期知识,将高层次的语义指令翻译为像素级的视觉定位。这些信息被明确地集成到一个多尺度视觉增强框架中,该框架由一个双分辨率编码器构建。此外,我们还在扩散变换器架构中引入了一种一致性策略实现,以提高实时性能和实体代理控制的运动平滑度。我们在多个具有挑战性的实际任务上评估了Imit Diff。由于其面向任务的视觉定位和细粒度的场景感知,它在包含视觉干扰和类别泛化的复杂场景中显著优于最先进的方法。代码将公开提供。