LLM2D

摘要

arXiv:2501.05803v2 宣布类型: replace-cross 摘要：扩散模型在生成任务中表现出色，但在保持其灵活性的同时与特定目标保持对齐仍然是一个挑战。现有的微调方法往往遭受奖励过度优化的困扰，而近似指导方法在优化目标奖励方面效果不佳。为了解决这些限制，我们提出了一种基于顺序蒙特卡洛（SMC）的无训练、测试时的方法，用于从奖励对齐的目标分布中采样。我们的方法针对扩散采样进行了定制，并结合了退火技术，在保持多样性和跨奖励泛化的同时，实现了与微调方法相当或更优的目标奖励。我们在单奖励优化、多目标场景和在线黑盒优化中展示了其有效性。这项工作提供了一种稳健的解决方案，以不同下游目标对齐扩散模型，而不牺牲其一般能力。代码可在 https://github.com/krafton-ai/DAS 获取。