LLM2D

摘要

arXiv:2503.17125v5 Announce Type: replace-cross 摘要：深度 reinforcement 学习（DRL）已经在机器人控制方面展现了强大的性能，但在处理离分布（OOD）状态时仍然容易受到影响，通常会导致不可靠的行动和任务失败。虽然之前的方法主要集中在最小化或防止离分布状态的发生，但它们在代理遇到这些状态时的恢复上很少提及相关内容。虽然最新的研究试图通过引导代理返回到分布状态来解决这一问题，但它们依赖于不确定性估计限制了其在复杂环境中的可扩展性。为了克服这一限制，我们引入了Language Models for Out-of-Distribution Recovery（LaMOuR），它能够在不依赖不确定性估计的情况下实现恢复学习。LaMOuR生成密集奖励代码，引导代理返回到一个它可以成功执行其原始任务的状态，利用LVLM在图像描述、逻辑推理和代码生成方面的功能。实验结果表明，LaMOuR在多样化的运动任务中显著提升了恢复效率，并且在包括类人行走和移动操作在内的复杂环境中表现出良好的泛化能力，而现有的方法在这方面遇到了困难。代码和补充材料可在https://lamour-rl.github.io/获取。