摘要
本研究关注扩散模型与连续奖励函数的对齐问题,该函数代表了特定下游任务的目标,例如增加图像的黑暗度或改善图像的美感。对齐问题的核心目标是调整扩散模型学习的分布,使得生成的样本最大化目标奖励函数。我们提出了一种名为直接噪声优化(DNO)的新型对齐方法,该方法优化了扩散模型采样过程中注入的噪声。通过设计,DNO 在推理时运行,因此无需调整且与提示无关,对齐在生成过程中以在线方式进行。我们严格研究了 DNO 的理论性质,并提出了处理不可微奖励函数的变体。此外,我们发现 DNO 的朴素实现偶尔会遇到分布外奖励攻击问题,即优化后的样本具有较高的奖励,但不再是预训练分布的支持。为了解决这个问题,我们利用经典的高维统计理论来开发一种有效的概率正则化技术。我们对几个重要的奖励函数进行了大量的实验,结果表明,所提出的 DNO 方法可以在合理的生成时间预算内实现最先进的奖励得分。