LLM2D

摘要

扩散模型在捕捉图像、分子、DNA、RNA 和蛋白质序列的自然设计空间方面表现出色。然而，我们通常的目标并不仅仅是生成自然的设计，而是希望在保留这些设计空间自然性的同时，优化下游奖励函数。现有的实现这一目标的方法通常需要“可微分”的代理模型（例如，分类器引导或 DPS）或涉及对扩散模型进行计算量大的微调（例如，无分类器引导，基于 RL 的微调）。在我们的工作中，我们提出了一种新的方法来解决这些挑战。我们的算法是一种迭代采样方法，它将软价值函数集成到预训练扩散模型的标准推理过程中，该函数展望中间噪声状态如何在未来导致高奖励。值得注意的是，我们的方法避免了对生成模型的微调，并消除了构建可微分模型的需要。这使我们能够 (1) 直接利用许多科学领域中常用的不可微分特征/奖励反馈，以及 (2) 以一种原则性的方式将我们的方法应用于最近的离散扩散模型。最后，我们在几个领域证明了我们算法的有效性，包括图像生成、分子生成和 DNA/RNA 序列生成。代码可在 \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD} 获取。