摘要
随着文本到图像模型越来越强大和复杂,其不断增长的规模成为广泛应用的重大障碍,尤其是在资源受限的设备上。本文对Stable Diffusion 2的训练后剪枝进行了开创性研究,解决了文本到图像领域模型压缩的关键需求。我们的研究解决了先前未探索的多模态生成模型的剪枝技术,并特别检查了剪枝对文本组件和图像生成组件分别的影响。我们对以不同稀疏度剪枝模型或模型的单个组件进行了全面的比较。我们的结果产生了以前未记录的发现。例如,与语言模型剪枝的既定趋势相反,我们发现简单的幅度剪枝在文本到图像环境中优于更先进的技术。此外,我们的结果表明,Stable Diffusion 2可以剪枝到38.5%的稀疏度,而质量损失最小,从而显著减小了模型大小。我们提出了一种最佳的剪枝配置,将文本编码器剪枝到47.5%,将扩散生成器剪枝到35%。这种配置在保持图像生成质量的同时,大大降低了计算需求。此外,我们的工作揭示了关于文本到图像模型中信息编码的有趣问题:我们观察到,超过一定阈值的剪枝会导致性能突然下降(图像无法读取),这表明特定的权重编码了关键的语义信息。这一发现为未来在模型压缩、互操作性和文本到图像模型中的偏差识别方面研究开辟了新的途径。通过提供对文本到图像模型剪枝行为的关键见解,我们的研究为开发更高效、更易访问的AI驱动图像生成系统奠定了基础。