LLM2D

摘要

arXiv:2505.10442v1 类型:交叉摘要：模仿学习（IL）和强化学习（RL）各自为机器人策略学习提供了独特的优势：IL 通过演示提供了稳定的训练，而 RL 通过探索促进了泛化。虽然现有的基于 IL 的预训练结合 RL 的微调的机器人学习方法很有前景，但在 RL 微调阶段，这种两步学习范式常常会遭受不稳定性以及样本效率差的问题。在本文中，我们引入了一种名为 IN-RIL 的方法，即交替强化学习和模仿学习，在多次 RL 更新后周期性地注入 IL 更新，从而可以从 IL 的稳定性以及专家数据的指导中受益，以更有效地在整个微调过程中进行探索。由于 IL 和 RL 涉及不同的优化目标，我们开发了梯度分离机制，以防止在微调过程中破坏性干扰的发生，通过分离可能冲突的梯度更新到正交子空间中。此外，我们进行了严谨的分析，我们的发现揭示了为什么将 IL 与 RL 交替可以稳定学习并提高样本效率。在 FurnitureBench、OpenAI Gym 和 Robomimic 三个基准测试中的 14 项机器人操作和运动任务（包括但不限于稀疏奖励和密集奖励的任务）上进行了广泛的实验，证明了 IN-RIL 可以显著提高样本效率，并在长时间和短时间任务中减轻在线微调期间的表现崩溃。IN-RIL 作为通用插件，可以与各种最先进的 RL 算法兼容，可以显著提高 RL 微调效果，例如在 Robomimic Transport 中，成功率提高了 6.3 倍，提升了 88%。项目页面：https://github.com/ucd-dare/IN-RIL。