摘要
扩散模型在模拟多任务轨迹方面展现出了其能力。然而,现有的多任务规划器或策略通常依赖于通过多任务模仿获得的特定任务演示,或者需要特定任务的奖励标签来通过强化学习 (RL) 促进策略优化。为了应对这些挑战,我们旨在开发一种多功能的扩散规划器,它可以利用包含任务无关次优轨迹的大规模劣质数据,并能够快速适应特定任务。在本文中,我们提出了 **SODP**,这是一种两阶段框架,它利用 **次优** 数据来学习 **扩散规划器**,该规划器可用于各种下游任务。具体来说,在预训练阶段,我们训练了一个基础扩散规划器,通过对多任务轨迹的多样性分布进行建模来提取一般的规划能力,这些轨迹可以是次优的,并且具有广泛的数据覆盖范围。然后,对于下游任务,我们采用基于 RL 的微调,并使用特定任务的奖励来快速优化扩散规划器,其目标是生成具有更高特定任务回报的动作序列。来自 Meta-World 和 Adroit 等多任务领域的实验结果表明,SODP 在仅使用少量用于奖励引导微调的数据的情况下,性能优于最先进的方法。