LLM2D

摘要

arXiv:2407.20021v4 公告类型: 替换交叉摘要：无数据量化（DFQ）是一种技术，可以从其全精度对应网络创建一个轻量级网络，而无需原始训练数据，通常通过合成数据集实现。尽管已经提出了一些针对视觉变换器（ViT）架构的DFQ方法，但在低位运算情况下，它们未能实现有效的量化。通过观察现有方法，我们发现它们的合成数据生成的注意力图不一致，而真实样本的注意力图高度一致。从这一观察出发，我们发现调整合成数据的注意力图有助于提高量化ViT的整体性能。受这一发现的启发，我们设计了MimiQ，这是一种新颖的针对ViT的DFQ方法，旨在增强跨头注意力相似性。首先，我们通过对每个空间查询块的头向注意力输出进行对齐来生成合成数据。然后，通过应用头向结构注意力蒸馏，将量化网络的注意力图与全精度教师网络的注意力图对齐。实验结果表明，所提出的方法显著优于基线方法，为ViT-DFQ设立了一个新的最先进的标准。这篇论文是我们在AAAI 2025会议 proceedings 发表的工作的扩展版本，包括额外的补充材料。