LLM2D

摘要

arXiv:2503.17125v3 Announce Type: replace-cross 摘要：深度强化学习（DRL）在机器人控制方面表现出强大的性能，但仍对离分布（OOD）状态敏感，经常导致不可靠的行为和任务失败。虽然以前的方法主要集中在最小化或防止OOD状态的发生，但它们在遇到此类状态后的大规模恢复方面几乎未予关注。虽然最新的研究试图通过引导代理返回到归一化状态来解决这一问题，但它们依赖不确定性估计，这阻碍了在复杂环境中的可扩展性。为克服这一局限，我们引入了《语言模型用于离分布恢复》（LaMOuR），它能够在不依赖不确定性估计的情况下实现恢复学习。LaMOuR生成密集的奖励编码，引导代理返回一个能够成功执行其原始任务的状态，利用LVLM在图像描述、逻辑推理和代码生成方面的能力。实验结果表明，LaMOuR显著提高了在多种移动任务中的恢复效率，并且能够有效地推广到包括类人行走和移动操作等复杂环境，现有方法在这些环境中表现不佳。相关代码和补充材料可在 https://lamour-rl.github.io/ 获取。