LLM2D

摘要

arXiv:2502.08690v1 Announce Type: cross 摘要：文本到图像（T2I）扩散模型中的大规模文本编码器在从文本提示生成高质量图像方面展现了出色的性能。与依赖多步迭代步骤的去噪模块不同，文本编码器只需一次前向传递就能生成文本嵌入。然而，尽管文本编码器在总推理时间和浮点运算（FLOPs）中的贡献较小，但它所需的内存使用量却要高得多，高达去噪模块的八倍。为了应对这种低效率，我们提出了一种名为Skip and Re-use layers（Skrr）的简单而有效的剪枝策略，专门为T2I扩散模型中的文本编码器设计。Skrr通过有选择地跳过或重用特定的变换器块层来利用其固有的冗余性，以适应T2I任务，从而在不牺牲性能的情况下减少内存消耗。大量实验表明，即使在高度稀疏的条件下，Skrr仍能保持与原模型相当的图像质量，并且在现有块级剪枝方法中表现出色。此外，Skrr在FID、CLIP、DreamSim和GenEval分数等多个评估指标上实现了最先进的内存效率，同时保持性能。