摘要
arXiv:2502.01819v2 宣告类型: replace-cross
摘要:从人类反馈中进行强化学习(RLHF),将扩散模型与输入提示相结合,已成为构建可靠生成型AI模型的关键步骤。该领域中的大多数研究工作采用离散时间形式,容易产生误差,且通常不适用于具有高级/黑盒求解器的模型。本研究的目标是通过连续时间RL开发一种严谨的方法来微调扩散模型,将其形式化为一个随机会话控制问题,奖励函数使最终结果(终端状态)与输入提示相匹配。核心思想是将评分匹配视为控制或动作,从而将连续时间RL中的政策优化和正则化联系起来。为了实现这一思想,我们提出了一种新的连续时间RL的政策优化框架,并通过利用扩散模型的结构特性来增强价值网络的设计空间。通过在Stable Diffusion v1.5的大规模Text2Image模型微调下游任务中的实验来验证我们方法的优势。