LLM2D

摘要

arXiv:2501.05803v3 公布类型: replace-cross 摘要：扩散模型在生成任务中表现出色，但在保持其灵活性的同时与特定目标对齐仍然具有挑战性。现有微调方法往往受到奖励过度优化的问题困扰，而近似指导方法则无法有效地优化目标奖励。针对这些局限性，我们提出了一种基于顺序蒙特卡洛（SMC）的无需训练、在测试时采样的方法，以从与奖励对齐的目标分布中采样。我们的方法针对扩散采样进行了定制，并结合了压制技术，能够在保持多样性和跨奖励泛化的同时，实现与微调方法相比可比或更优的目标奖励。我们在单奖励优化、多目标场景以及在线黑盒优化中展示了其有效性。该工作提供了一种稳健的解决方案，可以在不牺牲其通用能力的情况下将扩散模型与多种下游目标对齐。代码可在 https://github.com/krafton-ai/DAS 获取。