LLM2D
扩散模型的测试时对齐而不进行奖励过优化
Test-time Alignment of Diffusion Models without Reward Over-optimization
作者: Sunwoo Kim, Minkyu Kim, Dongmin Park
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2501.05803v3

摘要

arXiv:2501.05803v3 公布类型: replace-cross 摘要:扩散模型在生成任务中表现出色,但在保持其灵活性的同时与特定目标对齐仍然具有挑战性。现有微调方法往往受到奖励过度优化的问题困扰,而近似指导方法则无法有效地优化目标奖励。针对这些局限性,我们提出了一种基于顺序蒙特卡洛(SMC)的无需训练、在测试时采样的方法,以从与奖励对齐的目标分布中采样。我们的方法针对扩散采样进行了定制,并结合了压制技术,能够在保持多样性和跨奖励泛化的同时,实现与微调方法相比可比或更优的目标奖励。我们在单奖励优化、多目标场景以及在线黑盒优化中展示了其有效性。该工作提供了一种稳健的解决方案,可以在不牺牲其通用能力的情况下将扩散模型与多种下游目标对齐。代码可在 https://github.com/krafton-ai/DAS 获取。