LLM2D

摘要

随着文本到图像模型越来越强大和复杂，其不断增长的规模成为广泛应用的重大障碍，尤其是在资源受限的设备上。本文对Stable Diffusion 2的训练后剪枝进行了开创性研究，解决了文本到图像领域模型压缩的关键需求。我们的研究解决了先前未探索的多模态生成模型的剪枝技术，并特别检查了剪枝对文本组件和图像生成组件分别的影响。我们对以不同稀疏度剪枝模型或模型的单个组件进行了全面的比较。我们的结果产生了以前未记录的发现。例如，与语言模型剪枝的既定趋势相反，我们发现简单的幅度剪枝在文本到图像环境中优于更先进的技术。此外，我们的结果表明，Stable Diffusion 2可以剪枝到38.5%的稀疏度，而质量损失最小，从而显著减小了模型大小。我们提出了一种最佳的剪枝配置，将文本编码器剪枝到47.5%，将扩散生成器剪枝到35%。这种配置在保持图像生成质量的同时，大大降低了计算需求。此外，我们的工作揭示了关于文本到图像模型中信息编码的有趣问题：我们观察到，超过一定阈值的剪枝会导致性能突然下降（图像无法读取），这表明特定的权重编码了关键的语义信息。这一发现为未来在模型压缩、互操作性和文本到图像模型中的偏差识别方面研究开辟了新的途径。通过提供对文本到图像模型剪枝行为的关键见解，我们的研究为开发更高效、更易访问的AI驱动图像生成系统奠定了基础。