LLM2D

摘要

arXiv:2505.05470v1 类型: cross 摘要: 我们提出了Flow-GRPO，这是首个将在线强化学习(RL)集成到流匹配模型中的方法。我们的方法采用了两种关键策略：(1) ODE到SDE转换，即将确定性的常微分方程(ODE)转换为等价的随机微分方程(SDE)，使其在所有时间步长上与原始模型的边际分布相匹配，从而实现统计采样以供RL探索；(2) 去噪降级策略，该策略减少训练中的去噪步骤，同时保留原始推理时间步的数量，显著提高了采样效率，且未性能下降。实验结果表明，Flow-GRPO在多个文本到图像任务中均有效。对于复杂的组合，RL调优的SD3.5生成几乎完美的物体数量、空间关系和细微属性，将GenEval准确率从63%提升到95%。在视觉文本渲染中，其准确率从59%提高到92%，显著增强了文本生成。此外，Flow-GRPO在人类偏好对齐方面也取得了显著进步。值得注意的是，在我们的实验中，几乎没有或根本没有出现奖励作弊，这意味着奖励的增加并未以牺牲图像质量和多样性为代价，且两者在实验中均保持稳定。