LLM2D
无训练扩散模型对齐与采样恶魔
Training-free Diffusion Model Alignment with Sampling Demons
作者: Po-Hung Yeh, Kuang-Huei Lee, Jun-Cheng Chen
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05760v1

摘要

将扩散模型与用户偏好对齐一直是一个关键挑战。现有的扩散模型对齐方法要么需要重新训练,要么局限于可微分的奖励函数。为了解决这些限制,我们提出了一种随机优化方法,称为 Demon,在推理时引导去噪过程,无需通过奖励函数或模型重新训练进行反向传播。我们的方法通过在去噪步骤中控制噪声分布来实现,通过随机优化将密度集中在对应于高奖励的区域。我们提供了全面的理论和实证证据来支持和验证我们的方法,包括使用不可微分奖励来源的实验,例如视觉语言模型 (VLM) API 和人工判断。据我们所知,所提出的方法是第一个推理时、无反向传播的扩散模型偏好对齐方法。我们的方法可以轻松地与现有的扩散模型集成,无需进一步训练。我们的实验表明,所提出的方法显着提高了文本到图像生成的平均美学得分。