摘要
arXiv:2502.00379v1 交叉型公告
摘要:最近,由潜在动作政策(LAPO)开创的潜在动作学习显示出在仅凭观察数据预训练方面的卓越效率,这为利用网络上大量可用的视频资源进行具身人工智能提供了潜在可能。然而,先前的工作主要集中在无干扰的数据上,在这种数据中,观察之间的变化主要由真实动作来解释。不幸的是,现实世界的视频包含与动作相关的干扰,这可能阻碍潜在动作学习。使用干扰控制套件(DCS),我们实证研究了干扰对潜在动作学习的影响,并证明了LAPO在这种场景中表现不佳。我们提出了LAOM,这是一种简单的LAPO改进版本,通过线性探测测量,其潜在动作的质量提高了8倍。重要的是,我们展示了,在仅2.5%的数据集内提供真实动作的监督信息,可以在潜在动作学习过程中提高下游性能4.2倍。我们的研究结果表明,在存在干扰的情况下,将监督引入潜在动作模型(LAM)的训练中是至关重要的,这挑战了传统的先学习LAM,然后再从潜在到真实动作进行解码的管道。