摘要
arXiv:2503.21975v1 宣告类型: cross
摘要: 通常,强化学习(RL)方法从头开始学习新的任务,往往忽视了可以加速学习过程的先前知识。虽然一些方法整合了之前学习的技能,但他们通常依赖于固定的结构,例如单一的高斯分布,来定义技能先验。这种刚性的假设可能会限制技能的多样性和灵活性,特别是在复杂的、长时间的任务中。在本工作中,我们引入了一种方法,将潜在的基本技能运动建模为具有非参数性质的特征,且这些特征的数量是未知的。我们利用贝叶斯非参数模型,特别是狄利克莱过程混合模型,并通过生和合并启发式算法对其进行增强,以提前训练一个有效的先验技能,该先验技能能够捕获技能的多样性质。此外,学习到的技能在先验空间中是显式可追踪的,这提高了可解释性和控制性。通过将这种灵活的先验技能整合到RL框架中,我们的方法在长时间操作任务中超过了现有的方法,使得在复杂环境中更加高效地转移技能并成功执行任务。我们的研究结果表明,富有多样性的、非参数表示的技能先验显著提高了复杂机器人任务的训练和执行。所有数据、代码和视频均可在 https://ghiara.github.io/HELIOS/ 获取。