LLM2D

摘要

arXiv:2502.14944v1 宣布类型: cross 摘要: 为了充分利用扩散模型的能力，我们在推理过程中经常关注优化下游奖励函数。由于其重要性，最近提出了许多奖励指导生成的算法，但当前的方法主要集中在单次生成上，从完全加噪声状态过渡到去噪状态。我们提出了一种受进化算法启发的推理时奖励优化的新框架。我们的方法采用迭代改进过程，每个迭代周期由两个步骤组成：加噪声和奖励指导去噪。这种顺序改进允许逐步纠正奖励优化过程中引入的错误。此外，我们为我们的框架提供了理论保证。最后，我们在蛋白质和细胞类型特异性的调节DNA设计方面展示了其优越的实验性能。代码可在 https://github.com/masa-ue/ProDifEvo-Refinement 获取。