摘要
arXiv:2502.14070v1 类型: cross
摘要: 对于将奖励最大化作为目标微调文本到图像扩散模型已被证明可以有效提升模型性能。然而,奖励微调方法经常由于在线样本生成缓慢而收敛缓慢。因此,获取具有强烈奖励信号的多样化样本对于提高样本效率和总体性能至关重要。在本文中,我们引入了DiffExp,这是一种简单且有效的探索策略,用于文本到图像模型的奖励微调。我们的方法采用了两种关键策略:(a) 动态调整无条件引导的比例以增强样本多样性,以及 (b) 随机权重文本提示中的短语以利用高质量的奖励信号。我们展示了这些策略在在线样本生成过程中显著提高了探索,从而提高了最近的奖励微调方法(如DDPO和AlignProp)的样本效率。