LLM2D

摘要

arXiv:2503.20176v1 类型: cross 摘要：技能已被引入到 Offline Reinforcement Learning (RL) 中，作为一种时间上的抽象，以应对复杂的、长期的任务，促进一致的行为并使有意义的探索成为可能。虽然在 Offline RL 中技能主要在连续的潜在空间中建模，但离散技能空间的潜力仍然很大程度上被未探索。在本文中，我们提出了一种用于 Offline RL 任务的紧凑型离散技能空间，该空间由最先进的基于变压器的编码器和基于扩散的解码器支持。结合一种通过 Offline RL 技术训练的高度政策，我们的方法建立了一个分层 RL 框架，其中训练好的扩散解码器扮演着关键角色。实证评估表明，所提出算法 Discrete Diffusion Skill (DDS) 是一种强大的 Offline RL 方法。DDS 在 Locomotion 和 Kitchen 任务上的表现竞争力很强，并在长期任务上表现出色，与现有 Offline RL 方法相比，在 AntMaze-v2 标准测试中实现了至少 12% 的改进。此外，DDS 相比于之前的基于技能的方法提供了更好的可解释性、训练稳定性和在线探索能力。