LLM2D

摘要

arXiv:2503.17125v4 丢弃类型: replace-cross 摘要: 深度强化学习(DRL)在机器人控制方面展示了强大的性能，但仍然容易受到分布外(OOD)状态的影响，常常导致不可靠的行为和任务失败。尽管之前的某些方法集中在最小化或防止OOD状态的出现，但对于代理遇到此类状态后的恢复却几乎没有予以考虑。虽然最新的研究试图通过引导代理返回到分布内状态来解决这个问题，但它们对不确定性的估计限制了其在复杂环境中的可扩展性。为了克服这一限制，我们引入了基于语言模型的分布外恢复（LaMOuR），它可以不依赖于不确定性估计来进行恢复学习。LaMOuR 生成密集的奖励码，引导代理返回到可以成功完成原始任务的状态，并利用LVLM 在图像描述、逻辑推理和代码生成方面的能力。实验结果显示，LaMOuR 显著提高了不同运动任务的恢复效率，并且在复杂的环境中表现出良好的泛化能力，包括类人步行和移动操作，而现有的方法在这些环境中则表现不佳。相关代码和补充材料可在 https://lamour-rl.github.io/ 获取。