LLM2D

摘要

arXiv:2502.06061v1 类型: cross 摘要: 近年来，强化学习（RL）在精细调整基于扩散生成模型方面取得了巨大成功。然而，将连续流动生成模型微调以与任意用户定义的奖励函数对齐依然充满挑战，特别是由于过度优化导致的策略崩溃问题以及连续时间流动计算似然成本过高。在本文中，我们提出了一种易于使用且理论基础扎实的RL微调方法，我们称之为在线奖励加权条件流匹配与Wasserstein-2正则化（ORW-CFM-W2）。该方法将RL融入流动匹配框架，以任意奖励函数微调生成模型，而不依赖于奖励的梯度或过滤数据集。通过引入在线奖励加权机制，我们的方法引导模型优先关注数据流形中的高奖励区域。为了防止策略崩溃并保持多样性，我们在方法中引入了Wasserstein-2 (W2) 距离正则化，并在流动匹配中推导出其可计算的上界，有效地平衡了策略优化的探索与利用。我们提供了理论分析以证明该方法的收敛性质和诱导数据分布，并将该方法与具有Kullback-Leibler (KL) 正则化的传统RL算法建立联系，从而更全面地理解我们方法所依赖的机制和学习行为。在包括目标图像生成、图像压缩和图文对齐等任务的广泛实验中，我们展示了该方法的有效性，其中该方法实现了最优策略收敛，同时允许在奖励最大化和多样性保留之间进行可控的权衡。