LLM2D

摘要

arXiv:2502.07523v1 标题：跨模态强化学习类型：交叉摘要：强化学习已经取得了显著的里程碑，但在现实世界应用中，采样效率仍然是一个瓶颈。最近，CrossQ在低更新与数据比（UTD比）为1的情况下展示了最先进的采样效率。在本工作中，我们研究了更高UTD比情况下的CrossQ的扩展行为。我们发现在训练动态中存在挑战，这些挑战在更高UTD比的情况下被放大。为了解决这些问题，我们将权重规范化集成到CrossQ框架中，这一解决方案已被证明可以稳定训练，防止潜在的可塑性丧失，并保持有效的学习率不变。我们提出的方法可靠地在增加的UTD比下扩展，能够在DeepMind控制套件和Myosuite基准测试中的25个具有挑战性的连续控制任务上实现竞争力的表现，特别是复杂的狗和人形环境。这项工作消除了需要大幅干预（如网络重置）的需求，并提供了一条简单而稳健的途径，用于提高模型自由强化学习中的采样效率和可扩展性。