LLM2D

摘要

强化学习 (RL) 是一种解决机器人操作任务的有前景的方法。然而，将 RL 算法直接应用于现实世界具有挑战性。一方面，RL 对数据要求很高，通常需要数百万次与环境的交互，这在现实场景中是不切实际的。另一方面，需要付出巨大的工程努力才能手动设计奖励函数。为了解决这些问题，我们在本文中利用基础模型。我们提出了具有基础先验的强化学习 (RLFP)，以利用来自策略、价值和成功奖励基础模型的指导和反馈。在这个框架内，我们引入了基础引导的演员-评论家 (FAC) 算法，该算法使具身代理能够通过自动奖励函数更有效地探索。我们框架的优点有三方面： (1) \textit{样本效率}; (2) \textit{最小且有效的奖励工程}; (3) \textit{对基础模型形式无关且对噪声先验具有鲁棒性}。我们的方法在真实机器人和模拟环境中各种操作任务中取得了显著的性能。在使用真实机器人的 5 个灵巧任务中，FAC 在一个小时的实时学习后平均成功率达到 86%。在模拟 Meta-world 中的 8 个任务中，FAC 在不到 10 万帧（约 1 小时训练）的情况下，在 7/8 个任务中实现了 100% 的成功率，优于使用手动设计的奖励在 100 万帧中进行基线方法。我们相信 RLFP 框架可以使未来的机器人能够在物理世界中自主地探索和学习更多任务。可视化和代码可在 \url{https://yewr.github.io/rlfp} 获取。