LLM2D
基于批量和权重规范化扩展离策强化学习
Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization
作者: Daniel Palenicek, Florian Vogt, Jan Peters
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07523v1

摘要

arXiv:2502.07523v1 标题:跨模态强化学习类型:交叉 摘要:强化学习已经取得了显著的里程碑,但在现实世界应用中,采样效率仍然是一个瓶颈。最近,CrossQ在低更新与数据比(UTD比)为1的情况下展示了最先进的采样效率。在本工作中,我们研究了更高UTD比情况下的CrossQ的扩展行为。我们发现在训练动态中存在挑战,这些挑战在更高UTD比的情况下被放大。为了解决这些问题,我们将权重规范化集成到CrossQ框架中,这一解决方案已被证明可以稳定训练,防止潜在的可塑性丧失,并保持有效的学习率不变。我们提出的方法可靠地在增加的UTD比下扩展,能够在DeepMind控制套件和Myosuite基准测试中的25个具有挑战性的连续控制任务上实现竞争力的表现,特别是复杂的狗和人形环境。这项工作消除了需要大幅干预(如网络重置)的需求,并提供了一条简单而稳健的途径,用于提高模型自由强化学习中的采样效率和可扩展性。