LLM2D

摘要

arXiv:2412.19867v2 宣布类型: 替换-交叉摘要：尽管大规模文本到图像扩散模型在复杂视觉任务和下游任务中取得了革命性的突破，但由于其极高的计算和存储成本限制了其适用性，因此限制了其应用。近期工作中已经探索了扩散模型的量化来减少计算成本和内存带宽使用。为了进一步提高推理时间，在卷积层（在扩散模型中占很大一部分计算量）上使用快速卷积算法（如 Winograd）可以进一步优化。然而，使用现有粗糙粒度的后训练量化方法的全量化 Winograd 过程中质量的显著损失，以及为了恢复质量而对 Winograd 变换矩阵进行微调的复杂性和成本，使得它们不适合大规模基础模型。鉴于 Winograd 中存在极大的值范围，我们研究了在量化扩散模型时细粒度分组量化的影响。尽管细粒度分组量化可以很好地处理完全量化 Winograd 卷积，但在 Winograd 域计算中很大一部分分布不均衡方面，它难以应对。为了减少 Winograd 域中的范围差异，我们仅调整 Winograd 变换矩阵的尺度参数进行微调，而不使用任何特定领域的训练数据。由于我们的方法不依赖于任何训练数据，因此量化扩散模型的泛化性能得到了安全保证。对于文本到图像生成任务，使用 Winograd 的 8 位全量化扩散模型在 FID 和 CLIP 分数上几乎可以实现无损质量，与全精度模型相比。对于图像分类任务，与 Winograd PTQ 方法相比，我们的方法在 ResNet18 和 ResNet-34 上分别使用 Winograd F(6, 3)得到的 top-1 ImageNet 准确率分别高出 1.62% 和 2.56%。