LLM2D

摘要

强化学习（RL）是解决机器人操作任务的一种很有前景的方法。然而，将 RL 算法直接应用于现实世界具有挑战性。一方面，RL 依赖于数据，通常需要数百万次与环境的交互，这在现实场景中是不切实际的。另一方面，需要付出大量的工程努力来手动设计奖励函数。为了解决这些问题，本文利用基础模型。我们提出了具有基础先验的强化学习（RLFP），以利用来自策略、价值和成功奖励基础模型的指导和反馈。在这个框架内，我们引入了基础引导的演员-评论家（FAC）算法，该算法使具身代理能够通过自动奖励函数更有效地探索。我们的框架具有以下三个优点：（1）*样本效率*；（2）*最少且有效的奖励工程*；（3）*与基础模型形式无关，并且对噪声先验具有鲁棒性*。我们的方法在真实机器人和模拟中各种操作任务中取得了显着性能。在 5 个使用真实机器人的灵巧任务中，FAC 在一个小时的实时学习后，平均成功率达到 86%。在模拟的 Meta-world 中的 8 个任务中，FAC 在不到 10 万帧（约 1 小时训练）的情况下，在 7/8 个任务中实现了 100% 的成功率，超过了使用手动设计的奖励在 100 万帧内进行训练的基线方法。我们相信 RLFP 框架可以使未来的机器人能够在物理世界中自主探索和学习更多任务。