LLM2D
基于信息的零阶微调用于扩散模型:递归对数似然比优化器
Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer
作者: Tao Ren, Zishi Zhang, Zehao Li, Jingyang Jiang, Shentao Qin, Guanghao Li, Yan Li, Yi Zheng, Xinping Li, Min Zhan, Yijie Peng
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00639v1

摘要

arXiv:2502.00639v1 Announce Type: cross 摘要:概率扩散模型(DM),通过递归链结构进行推理生成内容,已成为视觉生成的强大框架。在大量未标记数据的预训练后,该模型需要正确对齐以满足下游应用的要求。如何高效地对基础DM进行对齐是一项关键任务。当代方法要么基于强化学习(RL),要么基于截断反向传播(BP)。然而,RL和截断BP分别受到低样本效率和偏差梯度估计的限制,导致改进有限,甚至 worse,完全训练失败。为克服这些挑战,我们提出了递归似然比(RLR)优化器,这是一种基于零阶信息的DM精细调整范式。零阶梯度估计器使计算图在递归扩散链内重排成为可能,从而使RLR的梯度估计器成为一个无偏差估计器,其方差低于其他方法。我们为RLR的表现提供了理论保证。我们在图像和视频生成任务中进行了广泛的实验,以验证RLR的优越性。此外,我们提出了一种新的提示技术,这种技术非常适合RLR,以实现协同效应。