摘要
arXiv:2503.08295v2 宣告类型: replace-cross
摘要:扩散模型在多个领域取得了最先进的性能,近期的发展使其能够应用于离散数据。然而,在无法获取显式奖励函数的情况下,将离散扩散模型与特定任务的需求对齐仍然是一个挑战。本文中,我们引入了离散扩散DPO(D2-DPO),这是首次将直接偏好优化(DPO)应用于以连续时间马尔可夫链形式表述的离散扩散模型。我们的方法推导出一种新的损失函数,该函数可以直接使用偏好数据调整生成过程,同时保持对参考分布的忠实性。我们通过结构化的二元序列生成任务验证了D2-DPO的有效性,展示了该方法能够有效地将模型输出与偏好对齐,同时保持结构上的有效性。我们的结果表明,D2-DPO 可以实现可控的调整,而无需使用显式的奖励模型,使其成为基于强化学习的方法的一种实用替代方案。未来的研究将探索将D2-DPO 扩展到更复杂的生成任务,包括语言建模和蛋白质序列生成,以及研究替代噪声计划的可能性,如均匀噪声,以提高其在不同应用中的灵活性。