LLM2D

摘要

分层强化学习 (HRL) 通过将复杂任务分解为结构化的策略来有效地解决这些任务。然而，HRL 智能体在高效探索和快速适应方面往往面临挑战。为了解决这个问题，我们将元学习整合到 HRL 中，以增强智能体快速学习和适应分层策略的能力。我们的方法利用元学习，基于先前的经验进行快速的任务适应，而内在动机机制通过奖励新状态访问来鼓励高效探索。具体来说，我们的智能体使用高级策略在多个低级策略之间进行选择，这些低级策略在自定义网格环境中运行。我们利用基于梯度的元学习，通过可微分的内循环更新，能够跨越一系列越来越困难的任务进行优化。实验结果表明，我们的元学习分层智能体明显优于没有元学习和内在动机的传统 HRL 智能体。该智能体在复杂网格环境中表现出加速学习、更高的累积奖励和更高的成功率。这些发现表明，将元学习与 HRL 整合，以及课程学习和内在动机，极大地增强了智能体处理复杂任务的能力。