摘要
arXiv:2409.19949v2 Announce Type: replace-cross
摘要:扩散模型在建模多任务轨迹方面展示了其能力。然而,现有的多任务规划器或策略通常依赖于通过多任务模仿任务特定的演示,或者需要任务特定的奖励标签来通过强化学习(RL)促进策略优化。这些方法由于需要大量的人力努力收集专家数据或设计奖励函数而成本高昂。为了解决这些挑战,我们旨在开发一个通用的扩散规划器,能够利用包含任务无关的次优轨迹的大规模劣质数据,并具备快速适应特定任务的能力。在本文中,我们提出了SODP,这是一种两阶段框架,利用次优数据来学习一个扩散规划器,该规划器适用于各种下游任务。具体而言,在预训练阶段,我们训练了一个基础的扩散规划器,通过建模多任务轨迹的多功能分布来提取通用的规划能力,这些轨迹可以是次优的,且具有广泛的数据覆盖。然后对于下游任务,我们采用基于强化学习的微调并结合任务特定的奖励来快速细化扩散规划器,目标是生成具有更高任务特定回报的动作序列。来自Meta-World和Adroit等多任务领域的实验结果显示,SODP仅使用少量数据进行奖励引导的微调便优于现有最先进的方法。