LLM2D

摘要

arXiv:2502.01819v2 宣告类型: replace-cross 摘要：从人类反馈中进行强化学习（RLHF），将扩散模型与输入提示相结合，已成为构建可靠生成型AI模型的关键步骤。该领域中的大多数研究工作采用离散时间形式，容易产生误差，且通常不适用于具有高级/黑盒求解器的模型。本研究的目标是通过连续时间RL开发一种严谨的方法来微调扩散模型，将其形式化为一个随机会话控制问题，奖励函数使最终结果（终端状态）与输入提示相匹配。核心思想是将评分匹配视为控制或动作，从而将连续时间RL中的政策优化和正则化联系起来。为了实现这一思想，我们提出了一种新的连续时间RL的政策优化框架，并通过利用扩散模型的结构特性来增强价值网络的设计空间。通过在Stable Diffusion v1.5的大规模Text2Image模型微调下游任务中的实验来验证我们方法的优势。