LLM2D
测试时扩散模型的对齐无需奖励过度优化
Test-time Alignment of Diffusion Models without Reward Over-optimization
作者: Sunwoo Kim, Minkyu Kim, Dongmin Park
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2501.05803v2

摘要

arXiv:2501.05803v2 宣布类型: replace-cross 摘要:扩散模型在生成任务中表现出色,但在保持其灵活性的同时与特定目标保持对齐仍然是一个挑战。现有的微调方法往往遭受奖励过度优化的困扰,而近似指导方法在优化目标奖励方面效果不佳。为了解决这些限制,我们提出了一种基于顺序蒙特卡洛(SMC)的无训练、测试时的方法,用于从奖励对齐的目标分布中采样。我们的方法针对扩散采样进行了定制,并结合了退火技术,在保持多样性和跨奖励泛化的同时,实现了与微调方法相当或更优的目标奖励。我们在单奖励优化、多目标场景和在线黑盒优化中展示了其有效性。这项工作提供了一种稳健的解决方案,以不同下游目标对齐扩散模型,而不牺牲其一般能力。代码可在 https://github.com/krafton-ai/DAS 获取。