LLM2D

摘要

arXiv:2502.08336v1 宣布类型: 新摘要: 在视觉强化学习中，将策略推广到未见过的场景仍然是一个关键挑战，其中代理往往会过度拟合到训练环境的特定视觉观察。在未见过的环境中，分散注意力的像素可能会使代理提取包含任务无关信息的表示。因此，代理可能会偏离训练期间学得的最佳行为，从而阻碍视觉推广。为了应对这一问题，我们提出了一种适用于零样本推广的高效框架——可显著稳健的感知一致性策略学习（SCPL）算法。我们的方法引入了一种新颖的价值一致性模块和动力学模块，以有效地捕捉任务相关表示。价值一致性模块受到显性度的指导，确保代理在原始和受扰观察中都专注于任务相关像素，而动力学模块通过扩充数据帮助编码器捕捉动态和奖励相关表示。此外，我们的理论分析强调了策略一致性对于推广的重要性。为了增强这一点，我们引入了一个受 KL 散度约束的策略一致性模块，以确保原始和受扰观察中的策略具有一致性。在 DMC-GB、机器人操作以及 CARLA 基准上的广泛实验表明，SCPL 在推广方面明显优于现有方法。特别是，在挑战性的 DMC 视频困难设置、机器人困难设置以及 CARLA 基准中，SCPL 分别实现了平均性能提升 14%、39% 和 69%。项目页面: https://sites.google.com/view/scpl-rl。