LLM2D

摘要

arXiv:2503.21975v1 宣告类型: cross 摘要: 通常，强化学习（RL）方法从头开始学习新的任务，往往忽视了可以加速学习过程的先前知识。虽然一些方法整合了之前学习的技能，但他们通常依赖于固定的结构，例如单一的高斯分布，来定义技能先验。这种刚性的假设可能会限制技能的多样性和灵活性，特别是在复杂的、长时间的任务中。在本工作中，我们引入了一种方法，将潜在的基本技能运动建模为具有非参数性质的特征，且这些特征的数量是未知的。我们利用贝叶斯非参数模型，特别是狄利克莱过程混合模型，并通过生和合并启发式算法对其进行增强，以提前训练一个有效的先验技能，该先验技能能够捕获技能的多样性质。此外，学习到的技能在先验空间中是显式可追踪的，这提高了可解释性和控制性。通过将这种灵活的先验技能整合到RL框架中，我们的方法在长时间操作任务中超过了现有的方法，使得在复杂环境中更加高效地转移技能并成功执行任务。我们的研究结果表明，富有多样性的、非参数表示的技能先验显著提高了复杂机器人任务的训练和执行。所有数据、代码和视频均可在 https://ghiara.github.io/HELIOS/ 获取。