LLM2D

摘要

基于扩散模型的图像生成展现了卓越的学习能力，有效地捕捉了训练数据集的完整分布。它们能够生成各种各样的样本图像，尽管图像保真度有所权衡。引导采样方法，例如分类器引导 (CG) 和无分类器引导 (CFG)，专注于将采样集中在学习良好的高概率区域，以生成高保真度的图像，但每种方法都有其局限性。由于使用了反向传播进行分类器梯度下降，CG 计算成本很高，而 CFG 作为一种无梯度方法，效率更高，但与 CG 相比，其类别标签对齐性有所降低。在这项工作中，我们提出了一种高效的引导方法，该方法无需使用梯度下降即可充分利用预训练的分类器。通过仅在推理模式下使用分类器，在每个时间步长确定一个时间自适应参考类别标签和相应的引导尺度，用于引导采样。在类别条件和文本到图像生成的扩散模型上的实验表明，所提出的无梯度分类器引导 (GFCG) 方法始终提高了类别预测精度。我们还表明 GFCG 与其他引导采样方法（如 CFG）互补。当与最先进的自动引导 (ATG) 方法结合时，无需额外的计算开销，它可以提高图像保真度，同时保持多样性。对于 ImageNet 512×512，我们实现了创纪录的 $\text{FD}_{\text{DINOv2}}$ 值 23.09，同时实现了比 ATG (90.2%) 更高的分类精度 (94.3%)。