LLM2D

摘要

arXiv:2503.08295v2 宣告类型: replace-cross 摘要：扩散模型在多个领域取得了最先进的性能，近期的发展使其能够应用于离散数据。然而，在无法获取显式奖励函数的情况下，将离散扩散模型与特定任务的需求对齐仍然是一个挑战。本文中，我们引入了离散扩散DPO（D2-DPO），这是首次将直接偏好优化（DPO）应用于以连续时间马尔可夫链形式表述的离散扩散模型。我们的方法推导出一种新的损失函数，该函数可以直接使用偏好数据调整生成过程，同时保持对参考分布的忠实性。我们通过结构化的二元序列生成任务验证了D2-DPO的有效性，展示了该方法能够有效地将模型输出与偏好对齐，同时保持结构上的有效性。我们的结果表明，D2-DPO 可以实现可控的调整，而无需使用显式的奖励模型，使其成为基于强化学习的方法的一种实用替代方案。未来的研究将探索将D2-DPO 扩展到更复杂的生成任务，包括语言建模和蛋白质序列生成，以及研究替代噪声计划的可能性，如均匀噪声，以提高其在不同应用中的灵活性。