摘要
arXiv:2502.01819v1 交叉通知类型:交叉研究
摘要:从人类反馈中进行强化学习(RLHF),将扩散模型与输入提示对齐,已成为构建可靠生成型AI模型的关键步骤。该领域大多数工作使用离散时间公式,容易引入误差,并且通常不适用于具有高阶/黑盒求解器的模型。本研究的目标是开发一种严谨的方法,利用连续时间RL对扩散模型进行微调,将其形式化为一个以奖励函数为基础的随机控制问题,该奖励函数将最终结果(终止状态)与输入提示对齐。关键思想是将得分匹配视为控制或动作,从而将连续时间RL中的策略优化和正则化联系起来。为了实现这一目标,我们提出了一种新的连续时间RL的策略优化框架,并通过利用扩散模型的结构特性,展示了其增强价值网络设计空间的潜力。我们通过在稳定扩散v1.5的大规模Text2Image模型微调下游任务中的实验,验证了我们方法的优势。