LLM2D

摘要

分层强化学习 (HRL) 为具有稀疏奖励的智能体复杂任务提供了一种有前景的解决方案，它使用分层框架将任务分解为子目标并依次完成。然而，当前的方法难以找到合适的子目标来确保稳定的学习过程。在没有额外指导的情况下，仅仅依靠探索或启发式方法来确定大型目标空间中的子目标是不切实际的。为了解决这个问题，我们提出了一种结合人类反馈和动态距离约束的通用分层强化学习框架 (MENTOR)。MENTOR 充当“导师”，将人类反馈融入高级策略学习中，以找到更好的子目标。至于低级策略，MENTOR 设计了一种用于探索-利用解耦的双重策略，以稳定训练过程。此外，虽然人类可以简单地将任务分解为子目标以指导正确的学习方向，但过于困难或过于简单的子目标仍然会阻碍下游学习效率。我们提出了动态距离约束 (DDC) 机制，动态调整可选子目标的空间。因此，MENTOR 可以从易到难生成与低级策略学习过程相匹配的子目标。大量的实验表明，MENTOR 使用少量的人类反馈就能在具有稀疏奖励的复杂任务中取得显著的改进。