摘要
arXiv:2501.05803v2 宣布类型: replace-cross
摘要:扩散模型在生成任务中表现出色,但在保持其灵活性的同时与特定目标保持对齐仍然是一个挑战。现有的微调方法往往遭受奖励过度优化的困扰,而近似指导方法在优化目标奖励方面效果不佳。为了解决这些限制,我们提出了一种基于顺序蒙特卡洛(SMC)的无训练、测试时的方法,用于从奖励对齐的目标分布中采样。我们的方法针对扩散采样进行了定制,并结合了退火技术,在保持多样性和跨奖励泛化的同时,实现了与微调方法相当或更优的目标奖励。我们在单奖励优化、多目标场景和在线黑盒优化中展示了其有效性。这项工作提供了一种稳健的解决方案,以不同下游目标对齐扩散模型,而不牺牲其一般能力。代码可在 https://github.com/krafton-ai/DAS 获取。