LLM2D

摘要

arXiv:2505.07447v1 Announce Type: cross 摘要：近年来，在连续生成模型方面的进展，包括多步方法如扩散和流匹配（通常需要8-1000个采样步骤）和少步方法如一致性模型（通常需要1-8个步骤），已经展示了极具影响力的生成性能。然而，现有的工作往往将这些方法视为不同的范式，导致各自独立的训练和采样方法。我们提出了一种统一的框架，用于训练、采样和分析这些模型。我们的实现，统一连续生成模型训练器和采样器（UCGM-{T,S}），达到了最先进的（SOTA）性能。例如，在使用675M扩散变换器于ImageNet 256x256数据集上，UCGM-T训练了一个多步模型，在20步中实现了1.30的FID得分，并且训练了一个少步模型，在仅2步中达到了1.42的FID得分。此外，将UCGM-S应用于预训练模型（此前在250步中FID得分为1.26），改进了性能，在仅40步中达到了1.06的FID得分。代码可在以下链接获取：https://github.com/LINs-lab/UCGM。