摘要
arXiv:2502.00639v1 Announce Type: cross
摘要:概率扩散模型(DM),通过递归链结构进行推理生成内容,已成为视觉生成的强大框架。在大量未标记数据的预训练后,该模型需要正确对齐以满足下游应用的要求。如何高效地对基础DM进行对齐是一项关键任务。当代方法要么基于强化学习(RL),要么基于截断反向传播(BP)。然而,RL和截断BP分别受到低样本效率和偏差梯度估计的限制,导致改进有限,甚至 worse,完全训练失败。为克服这些挑战,我们提出了递归似然比(RLR)优化器,这是一种基于零阶信息的DM精细调整范式。零阶梯度估计器使计算图在递归扩散链内重排成为可能,从而使RLR的梯度估计器成为一个无偏差估计器,其方差低于其他方法。我们为RLR的表现提供了理论保证。我们在图像和视频生成任务中进行了广泛的实验,以验证RLR的优越性。此外,我们提出了一种新的提示技术,这种技术非常适合RLR,以实现协同效应。