摘要
arXiv:2502.01384v1 宣告类型: cross
摘要:离散扩散模型由于其处理语言建模中的复杂离散结构的能力,最近获得了广泛关注。然而,使用策略梯度方法对这些模型进行微调,如在人类反馈强化学习(RLHF)中常见的做法,仍然是一个具有挑战性的任务。我们提出了一种高效的、广泛适用的并且具有理论依据的策略梯度算法,称为分数熵策略优化(SEPO),用于在非可微奖励上微调离散扩散模型。我们针对多个离散生成任务的数值实验表明了我们方法的可扩展性和效率。我们的代码可在 https://github.com/ozekri/SEPO 获取。