LLM2D
MimiQ:促进头部注意力相似性的低比特无数据量化视觉变换器
MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity
作者: Kanghyun Choi, Hye Yoon Lee, Dain Kwon, SunJong Park, Kyuyeun Kim, Noseong Park, Jonghyun Choi, Jinho Lee
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2407.20021v4

摘要

arXiv:2407.20021v4 公告类型: 替换交叉 摘要:无数据量化(DFQ)是一种技术,可以从其全精度对应网络创建一个轻量级网络,而无需原始训练数据,通常通过合成数据集实现。尽管已经提出了一些针对视觉变换器(ViT)架构的DFQ方法,但在低位运算情况下,它们未能实现有效的量化。通过观察现有方法,我们发现它们的合成数据生成的注意力图不一致,而真实样本的注意力图高度一致。从这一观察出发,我们发现调整合成数据的注意力图有助于提高量化ViT的整体性能。受这一发现的启发,我们设计了MimiQ,这是一种新颖的针对ViT的DFQ方法,旨在增强跨头注意力相似性。首先,我们通过对每个空间查询块的头向注意力输出进行对齐来生成合成数据。然后,通过应用头向结构注意力蒸馏,将量化网络的注意力图与全精度教师网络的注意力图对齐。实验结果表明,所提出的方法显著优于基线方法,为ViT-DFQ设立了一个新的最先进的标准。这篇论文是我们在AAAI 2025会议 proceedings 发表的工作的扩展版本,包括额外的补充材料。