LLM2D

摘要

随着文本到图像 (T2I) 合成模型规模的增大，其推理成本也随之提高，因为需要使用内存更大的昂贵GPU，这使得这些模型难以复现，并且限制了对训练数据集的访问。我们的研究旨在降低这些推理成本，并探索仅使用公开可用的数据集和开源模型，T2I 模型的生成能力可以扩展到什么程度。为此，我们使用事实上的标准文本到图像模型 Stable Diffusion XL (SDXL)，提出了构建高效 T2I 模型的三个关键实践：(1) 知识蒸馏：我们探索如何有效地将 SDXL 的生成能力蒸馏到一个高效的 U-Net 中，并发现自注意力是最关键的部分。(2) 数据：尽管样本较少，但具有丰富标题的高分辨率图像比大量具有简短标题的低分辨率图像更重要。(3) 教师：分步蒸馏教师允许 T2I 模型减少去噪步骤。基于这些发现，我们构建了两种类型的效率更高的文本到图像模型，称为 KOALA-Turbo 和 KOALA-Lightning，它们具有两个紧凑的 U-Net (1B 和 700M)，模型大小比 SDXL U-Net 分别减少了 54% 和 69%。特别是，KOALA-Lightning-700M 比 SDXL 快 4 倍，同时仍保持令人满意的生成质量。此外，与 SDXL 不同，我们的 KOALA 模型可以在具有 8GB VRAM 的消费级 GPU (3060Ti) 上生成 1024px 高分辨率图像。我们相信，我们的 KOALA 模型将产生重大的实际影响，成为资源受限环境下学术研究人员和普通用户的 SDXL 的经济高效的替代方案。