LLM2D

摘要

将扩散模型与用户偏好对齐一直是一个关键挑战。现有的扩散模型对齐方法要么需要重新训练，要么局限于可微分的奖励函数。为了解决这些限制，我们提出了一种随机优化方法，称为 Demon，在推理时引导去噪过程，无需通过奖励函数或模型重新训练进行反向传播。我们的方法通过在去噪步骤中控制噪声分布来实现，通过随机优化将密度集中在对应于高奖励的区域。我们提供了全面的理论和实证证据来支持和验证我们的方法，包括使用不可微分奖励来源的实验，例如视觉语言模型 (VLM) API 和人工判断。据我们所知，所提出的方法是第一个推理时、无反向传播的扩散模型偏好对齐方法。我们的方法可以轻松地与现有的扩散模型集成，无需进一步训练。我们的实验表明，所提出的方法显着提高了文本到图像生成的平均美学得分。