摘要
arXiv:2505.05470v2 宣告类型:replace-cross
摘要:我们提出了Flow-GRPO,这是第一个将在线强化学习(RL)集成到流匹配模型中的方法。我们的方法使用了两种关键策略:(1) ODE-to-SDE 转换,即将确定性的常微分方程(ODE)转换为等价的随机微分方程(SDE),这种SDE在所有时间步上与原始模型的边际分布匹配,从而实现用于RL探索的统计采样;以及(2) 去噪缩减策略,在保留原始推理时间步骤数量的同时减少训练中的去噪步骤,显著提高了采样效率,而不降低性能。实验证明,Flow-GRPO 在多种文本到图像任务中都有效。对于复杂的组合,RL调整的SD3.5 生成了几乎完美的对象数量、空间关系和细粒度属性,将GenEval精度从63%提升到95%。在视觉文本渲染中,其精度从59%提升到92%,显著增强了文本生成。Flow-GRPO 还实现了显著的人类偏好对齐增益。值得注意的是,几乎没有任何奖励欺骗发生,这意味着奖励的增加并没有以显著降低图像质量和多样性为代价。