LLM2D

摘要

arXiv:2505.05470v2 宣告类型：replace-cross 摘要：我们提出了Flow-GRPO，这是第一个将在线强化学习(RL)集成到流匹配模型中的方法。我们的方法使用了两种关键策略：(1) ODE-to-SDE 转换，即将确定性的常微分方程(ODE)转换为等价的随机微分方程(SDE)，这种SDE在所有时间步上与原始模型的边际分布匹配，从而实现用于RL探索的统计采样；以及(2) 去噪缩减策略，在保留原始推理时间步骤数量的同时减少训练中的去噪步骤，显著提高了采样效率，而不降低性能。实验证明，Flow-GRPO 在多种文本到图像任务中都有效。对于复杂的组合，RL调整的SD3.5 生成了几乎完美的对象数量、空间关系和细粒度属性，将GenEval精度从63%提升到95%。在视觉文本渲染中，其精度从59%提升到92%，显著增强了文本生成。Flow-GRPO 还实现了显著的人类偏好对齐增益。值得注意的是，几乎没有任何奖励欺骗发生，这意味着奖励的增加并没有以显著降低图像质量和多样性为代价。