摘要
arXiv:2505.10442v1 类型:交叉
摘要:模仿学习(IL)和强化学习(RL)各自为机器人策略学习提供了独特的优势:IL 通过演示提供了稳定的训练,而 RL 通过探索促进了泛化。虽然现有的基于 IL 的预训练结合 RL 的微调的机器人学习方法很有前景,但在 RL 微调阶段,这种两步学习范式常常会遭受不稳定性以及样本效率差的问题。在本文中,我们引入了一种名为 IN-RIL 的方法,即交替强化学习和模仿学习,在多次 RL 更新后周期性地注入 IL 更新,从而可以从 IL 的稳定性以及专家数据的指导中受益,以更有效地在整个微调过程中进行探索。由于 IL 和 RL 涉及不同的优化目标,我们开发了梯度分离机制,以防止在微调过程中破坏性干扰的发生,通过分离可能冲突的梯度更新到正交子空间中。此外,我们进行了严谨的分析,我们的发现揭示了为什么将 IL 与 RL 交替可以稳定学习并提高样本效率。在 FurnitureBench、OpenAI Gym 和 Robomimic 三个基准测试中的 14 项机器人操作和运动任务(包括但不限于稀疏奖励和密集奖励的任务)上进行了广泛的实验,证明了 IN-RIL 可以显著提高样本效率,并在长时间和短时间任务中减轻在线微调期间的表现崩溃。IN-RIL 作为通用插件,可以与各种最先进的 RL 算法兼容,可以显著提高 RL 微调效果,例如在 Robomimic Transport 中,成功率提高了 6.3 倍,提升了 88%。项目页面:https://github.com/ucd-dare/IN-RIL。