LLM2D

摘要

本研究关注扩散模型与连续奖励函数的对齐问题，该函数代表了特定下游任务的目标，例如增加图像的黑暗度或改善图像的美感。对齐问题的核心目标是调整扩散模型学习的分布，使得生成的样本最大化目标奖励函数。我们提出了一种名为直接噪声优化（DNO）的新型对齐方法，该方法优化了扩散模型采样过程中注入的噪声。通过设计，DNO 在推理时运行，因此无需调整且与提示无关，对齐在生成过程中以在线方式进行。我们严格研究了 DNO 的理论性质，并提出了处理不可微奖励函数的变体。此外，我们发现 DNO 的朴素实现偶尔会遇到分布外奖励攻击问题，即优化后的样本具有较高的奖励，但不再是预训练分布的支持。为了解决这个问题，我们利用经典的高维统计理论来开发一种有效的概率正则化技术。我们对几个重要的奖励函数进行了大量的实验，结果表明，所提出的 DNO 方法可以在合理的生成时间预算内实现最先进的奖励得分。