LLM2D

摘要

arXiv:2502.01819v1 交叉公告类型：摘要：使用人类反馈进行强化学习（RLHF），将扩散模型与输入提示对齐，已成为构建可靠的生成AI模型的关键步骤。该领域大多数现有工作采用离散时间形式，这容易引起错误，并且往往不适用于具有高阶/黑盒求解器的模型。本研究的目标是通过连续时间RL开发一种严谨的方法来微调扩散模型，将其表述为一种具有奖励函数的随机控制问题，该奖励函数将最终结果（终端状态）与输入提示对齐。关键思想是将分数匹配视为控制或动作，从而将分数匹配与连续时间RL中的策略优化和正则化联系起来。为了实现这一思想，我们提出了一种新的连续时间RL策略优化框架，并通过利用扩散模型的结构属性来增强价值网络的设计空间，展示了其潜力。我们通过在Stable Diffusion v1.5的大规模文本转图像模型微调下游任务中的实验验证了我们方法的优势。