摘要
扩散模型在捕捉图像、分子、DNA、RNA 和蛋白质序列的自然设计空间方面表现出色。然而,我们通常的目标并不仅仅是生成自然的设计,而是希望在保留这些设计空间自然性的同时,优化下游奖励函数。现有的实现这一目标的方法通常需要“可微分”的代理模型(例如,分类器引导或 DPS)或涉及对扩散模型进行计算量大的微调(例如,无分类器引导,基于 RL 的微调)。在我们的工作中,我们提出了一种新的方法来解决这些挑战。我们的算法是一种迭代采样方法,它将软价值函数集成到预训练扩散模型的标准推理过程中,该函数展望中间噪声状态如何在未来导致高奖励。值得注意的是,我们的方法避免了对生成模型的微调,并消除了构建可微分模型的需要。这使我们能够 (1) 直接利用许多科学领域中常用的不可微分特征/奖励反馈,以及 (2) 以一种原则性的方式将我们的方法应用于最近的离散扩散模型。最后,我们在几个领域证明了我们算法的有效性,包括图像生成、分子生成和 DNA/RNA 序列生成。代码可在 \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD} 获取。