LLM2D

摘要

扩散模型通过学习一系列模型来逆转噪声破坏的每个步骤进行训练。通常，模型参数在多个时间步长之间完全共享，以提高训练效率。然而，由于每个时间步长的去噪任务不同，在不同时间步长计算的梯度可能会发生冲突，这可能会降低图像生成的整体性能。为了解决这个问题，这项工作提出了一种解耦然后合并（DeMe）框架，该框架从一个预训练模型开始，并微调针对特定时间步长量身定制的独立模型。我们在微调阶段引入了几种改进的技术，以促进有效的知识共享，同时最大限度地减少跨时间步长的训练干扰。最后，在微调之后，这些独立模型可以在参数空间中合并成一个单一模型，从而确保高效且实用的推理。实验结果表明，在 6 个基准测试中，包括 COCO30K、ImageNet1K、PartiPrompts 上的稳定扩散以及 LSUN Church、LSUN Bedroom 和 CIFAR10 上的 DDPM，生成质量都有显著提高。