LLM2D

摘要

针对多目标强化学习价值函数集合构建通用逼近器的研究取得了重大进展，这些价值函数是参数化估计状态长期回报的关键要素。我们通过引入分层通用价值函数逼近器（H-UVFAs）将此扩展到分层强化学习中，使用选项框架。这使我们能够利用时间抽象设置中预期的扩展、规划和泛化等额外优势。我们开发了监督学习和强化学习方法，用于学习两个分层价值函数中状态、目标、选项和动作的嵌入：$Q(s, g, o; \theta)$ 和 $Q(s, g, o, a; \theta)$。最后，我们证明了 HUVFAs 的泛化能力，并表明它们优于相应的 UVFAs。