摘要
arXiv:2502.08336v1 宣布类型: 新
摘要: 在视觉强化学习中,将策略推广到未见过的场景仍然是一个关键挑战,其中代理往往会过度拟合到训练环境的特定视觉观察。在未见过的环境中,分散注意力的像素可能会使代理提取包含任务无关信息的表示。因此,代理可能会偏离训练期间学得的最佳行为,从而阻碍视觉推广。为了应对这一问题,我们提出了一种适用于零样本推广的高效框架——可显著稳健的感知一致性策略学习(SCPL)算法。我们的方法引入了一种新颖的价值一致性模块和动力学模块,以有效地捕捉任务相关表示。价值一致性模块受到显性度的指导,确保代理在原始和受扰观察中都专注于任务相关像素,而动力学模块通过扩充数据帮助编码器捕捉动态和奖励相关表示。此外,我们的理论分析强调了策略一致性对于推广的重要性。为了增强这一点,我们引入了一个受 KL 散度约束的策略一致性模块,以确保原始和受扰观察中的策略具有一致性。在 DMC-GB、机器人操作以及 CARLA 基准上的广泛实验表明,SCPL 在推广方面明显优于现有方法。特别是,在挑战性的 DMC 视频困难设置、机器人困难设置以及 CARLA 基准中,SCPL 分别实现了平均性能提升 14%、39% 和 69%。项目页面: https://sites.google.com/view/scpl-rl。