LLM2D

摘要

arXiv:2502.00639v1 Announce Type: cross 摘要：概率扩散模型（DM），通过递归链结构进行推理生成内容，已成为视觉生成的强大框架。在大量未标记数据的预训练后，该模型需要正确对齐以满足下游应用的要求。如何高效地对基础DM进行对齐是一项关键任务。当代方法要么基于强化学习（RL），要么基于截断反向传播（BP）。然而，RL和截断BP分别受到低样本效率和偏差梯度估计的限制，导致改进有限，甚至 worse，完全训练失败。为克服这些挑战，我们提出了递归似然比（RLR）优化器，这是一种基于零阶信息的DM精细调整范式。零阶梯度估计器使计算图在递归扩散链内重排成为可能，从而使RLR的梯度估计器成为一个无偏差估计器，其方差低于其他方法。我们为RLR的表现提供了理论保证。我们在图像和视频生成任务中进行了广泛的实验，以验证RLR的优越性。此外，我们提出了一种新的提示技术，这种技术非常适合RLR，以实现协同效应。