LLM2D

摘要

arXiv:2504.13987v1 投稿类型: cross 摘要: 指导技术常被用于改进扩散和流模型中条件生成任务（如类别条件生成和文本到图像生成）的图像质量和一致性。特别是，无类分类器自由指导（Classifier-Free Guidance, CFG）——被最广泛采用的指导技术——通过对比条件和无条件预测来改进生成的图像。然而，这种方法在质量和多样性、一致性之间产生了权衡，改进了某些方面可能会牺牲其他方面的表现。虽然最近的研究表明可以在一定程度上分离这些因素，但这类方法要么需要一个额外的（较弱）模型，要么每次采样步骤需要更多的前向传递。在本文中，我们提出了一种基于最先进的扩散变换器架构中推理时的注意力机制改变的简单而有效的指导机制——熵修正指导（Entropy Rectifying Guidance, ERG），它能够在不牺牲一个方面的情况下同时提高图像质量、多样性和提示一致性。ERG 比 CFG 和类似指导技术更具通用性，因为它可以应用于无条件采样。ERG 在文本到图像生成、类别条件生成和无条件图像生成等多种生成任务中显著提高了生成效果。此外，我们还展示出 ERG 可以无缝结合其他最近的指导方法（如 CADS 和 APG），进一步提升了生成性能。