LLM2D

摘要

arXiv:2502.07279v1 场景类型: cross 摘要：无监督强化学习（RL）旨在通过探索奖励免费环境中的状态或技能来预训练代理，从而促进下游任务的适应。然而，现有的方法往往忽视了预训练策略的拟合能力，并且难以处理异构的预训练数据，这对于实现高效的探索和快速微调至关重要。为了解决这一差距，我们提出了探索扩散策略（EDP），该策略利用扩散模型的强大表征能力来拟合探索的数据，从而增强探索并为下游任务提供高效的初始化。具体地，我们使用扩散策略来估计回放缓冲区中收集的数据分布，并提出了一种评分固有奖励，鼓励代理探索未见过的状态。为了在下游任务上微调预训练的扩散策略，我们提供了理论分析和实用算法，包括Q函数优化和扩散策略蒸馏的交替方法。广泛的实验表明，EDP在预训练期间的高效探索和微调期间的快速适应方面具有有效性。