摘要
arXiv:2503.17125v2 宣告类型: 替换交叉
摘要:深度强化学习(DRL)在机器人控制方面展示了强大的性能,但在面对离分布(OOD)状态时仍表现出脆弱性,通常会导致不可靠的动作和任务失败。虽然先前的方法主要集中在最小化或防止OOD状态的发生,但它们在代理遇到此类状态时的恢复能力上却很少有所考虑。尽管最新的研究试图通过引导代理返回到分布内状态来解决这一问题,但它们对不确定性估计的依赖限制了其在复杂环境中的可扩展性。为克服这一局限性,我们提出了离分布恢复的语言模型(LaMOuR),它能够在不依赖不确定性估计的情况下实现恢复学习。LaMOuR 生成密集的奖励代码,以引导代理返回到一个可以成功完成其原始任务的状态,利用 LVLM 在图像描述、逻辑推理和代码生成方面的功能。实验结果显示,LaMOuR 显著提高了在各种运动任务中的恢复效率,并且在其能够有效泛化到复杂环境,包括类人运动和移动操作方面,也表现出了优势,而现有的方法在这些环境中表现不佳。代码和补充材料可在 https://lamour-rl.github.io/ 获取。