LLM2D
当预训练视觉表示不足时:visuo-motor机器人学习的局限性
When Pre-trained Visual Representations Fall Short: Limitations in Visuo-Motor Robot Learning
作者: Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier, Chris Xiaoxuan Lu, Oisin Mac Aodha
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.03270v1

摘要

arXiv:2502.03270v1 交叉类型: cross 摘要:将预训练视觉表示(PVRs)集成到视觉-运动机器人学习中,已成为从零开始训练视觉编码器的一个有 promise 的替代方案。然而,在策略学习的背景下,PVRs 面临着关键挑战,包括时间纠缠以及即使在存在轻微场景变化的情况下也不能泛化。这些限制阻碍了在需要时间意识和对场景变化鲁棒性的任务中的性能。这项工作识别了这些不足,并提出了解决这些问题的方法。首先,我们通过增加时间感知和任务完成感来增强 PVR 功能,从而在时间上有效分离它们。其次,我们引入了一个模块,该模块能够在评估外域场景时学习选择性地关注与任务相关的局部特征,增强其鲁棒性。我们的实验结果表明,特别是在使用掩码目标训练的 PVR 中,性能有了显著提高,并验证了我们增强措施的有效性,以解决 PVR 特有的限制。