摘要
arXiv:2502.07279v1 场景类型: cross
摘要:无监督强化学习(RL)旨在通过探索奖励免费环境中的状态或技能来预训练代理,从而促进下游任务的适应。然而,现有的方法往往忽视了预训练策略的拟合能力,并且难以处理异构的预训练数据,这对于实现高效的探索和快速微调至关重要。为了解决这一差距,我们提出了探索扩散策略(EDP),该策略利用扩散模型的强大表征能力来拟合探索的数据,从而增强探索并为下游任务提供高效的初始化。具体地,我们使用扩散策略来估计回放缓冲区中收集的数据分布,并提出了一种评分固有奖励,鼓励代理探索未见过的状态。为了在下游任务上微调预训练的扩散策略,我们提供了理论分析和实用算法,包括Q函数优化和扩散策略蒸馏的交替方法。广泛的实验表明,EDP在预训练期间的高效探索和微调期间的快速适应方面具有有效性。