LLM2D
Flow-GRPO:通过在线强化学习训练流匹配模型
Flow-GRPO: Training Flow Matching Models via Online RL
作者: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.05470v1

摘要

arXiv:2505.05470v1 类型: cross 摘要: 我们提出了Flow-GRPO,这是首个将在线强化学习(RL)集成到流匹配模型中的方法。我们的方法采用了两种关键策略:(1) ODE到SDE转换,即将确定性的常微分方程(ODE)转换为等价的随机微分方程(SDE),使其在所有时间步长上与原始模型的边际分布相匹配,从而实现统计采样以供RL探索;(2) 去噪降级策略,该策略减少训练中的去噪步骤,同时保留原始推理时间步的数量,显著提高了采样效率,且未性能下降。实验结果表明,Flow-GRPO在多个文本到图像任务中均有效。对于复杂的组合,RL调优的SD3.5生成几乎完美的物体数量、空间关系和细微属性,将GenEval准确率从63%提升到95%。在视觉文本渲染中,其准确率从59%提高到92%,显著增强了文本生成。此外,Flow-GRPO在人类偏好对齐方面也取得了显著进步。值得注意的是,在我们的实验中,几乎没有或根本没有出现奖励作弊,这意味着奖励的增加并未以牺牲图像质量和多样性为代价,且两者在实验中均保持稳定。