LLM2D
离线强化学习中的离散扩散技能
Offline Reinforcement Learning with Discrete Diffusion Skills
作者: RuiXi Qiao, Jie Cheng, Xingyuan Dai, Yonglin Tian, Yisheng Lv
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.20176v1

摘要

arXiv:2503.20176v1 类型: cross 摘要:技能已被引入到 Offline Reinforcement Learning (RL) 中,作为一种时间上的抽象,以应对复杂的、长期的任务,促进一致的行为并使有意义的探索成为可能。虽然在 Offline RL 中技能主要在连续的潜在空间中建模,但离散技能空间的潜力仍然很大程度上被未探索。在本文中,我们提出了一种用于 Offline RL 任务的紧凑型离散技能空间,该空间由最先进的基于变压器的编码器和基于扩散的解码器支持。结合一种通过 Offline RL 技术训练的高度政策,我们的方法建立了一个分层 RL 框架,其中训练好的扩散解码器扮演着关键角色。实证评估表明,所提出算法 Discrete Diffusion Skill (DDS) 是一种强大的 Offline RL 方法。DDS 在 Locomotion 和 Kitchen 任务上的表现竞争力很强,并在长期任务上表现出色,与现有 Offline RL 方法相比,在 AntMaze-v2 标准测试中实现了至少 12% 的改进。此外,DDS 相比于之前的基于技能的方法提供了更好的可解释性、训练稳定性和在线探索能力。