LLM2D

摘要

arXiv:2502.03270v2 通知类型: replace-cross 摘要：将预训练视觉表示（PVRs）融入视觉-运动机器人学习已成为从零开始训练视觉编码器的一种有前途的替代方案。然而，在策略学习的情景下，PVRs面临着关键挑战，包括时间纠缠以及即使在场景微小变化的背景下也难以泛化。这些限制阻碍了在需要时间意识和对场景变化鲁棒性的任务中的表现。本工作识别了这些问题，并提出了解决方案。首先，我们通过引入时间感知和任务完成感知，有效地在时间上拆分了PVR特征。其次，我们引入了一个模块，该模块能够学习选择性地关注与任务相关的局部特征，当在分布外场景上进行评估时，增强了其鲁棒性。我们的实验结果显示，在使用掩码目标训练的PVR中，性能显著提升，并验证了我们改进的有效性，以解决PVR特有的限制。