LLM2D
得分即行动:通过连续时间强化学习微调扩散生成模型
Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning
作者: Hanyang Zhao, Haoxian Chen, Ji Zhang, David D. Yao, Wenpin Tang
发布日期: 2/5/2025
arXiv ID: 2502.01819

摘要

arXiv:2502.01819v1 交叉通知类型:交叉研究 摘要:从人类反馈中进行强化学习(RLHF),将扩散模型与输入提示对齐,已成为构建可靠生成型AI模型的关键步骤。该领域大多数工作使用离散时间公式,容易引入误差,并且通常不适用于具有高阶/黑盒求解器的模型。本研究的目标是开发一种严谨的方法,利用连续时间RL对扩散模型进行微调,将其形式化为一个以奖励函数为基础的随机控制问题,该奖励函数将最终结果(终止状态)与输入提示对齐。关键思想是将得分匹配视为控制或动作,从而将连续时间RL中的策略优化和正则化联系起来。为了实现这一目标,我们提出了一种新的连续时间RL的策略优化框架,并通过利用扩散模型的结构特性,展示了其增强价值网络设计空间的潜力。我们通过在稳定扩散v1.5的大规模Text2Image模型微调下游任务中的实验,验证了我们方法的优势。