LLM2D

摘要

arXiv:2502.01819v1 交叉通知类型：交叉研究摘要：从人类反馈中进行强化学习（RLHF），将扩散模型与输入提示对齐，已成为构建可靠生成型AI模型的关键步骤。该领域大多数工作使用离散时间公式，容易引入误差，并且通常不适用于具有高阶/黑盒求解器的模型。本研究的目标是开发一种严谨的方法，利用连续时间RL对扩散模型进行微调，将其形式化为一个以奖励函数为基础的随机控制问题，该奖励函数将最终结果（终止状态）与输入提示对齐。关键思想是将得分匹配视为控制或动作，从而将连续时间RL中的策略优化和正则化联系起来。为了实现这一目标，我们提出了一种新的连续时间RL的策略优化框架，并通过利用扩散模型的结构特性，展示了其增强价值网络设计空间的潜力。我们通过在稳定扩散v1.5的大规模Text2Image模型微调下游任务中的实验，验证了我们方法的优势。