摘要
大规模预训练的视觉语言模型(VLMs)在各种视觉和多模态任务中获得了突出地位,但由于其对训练样本和计算资源的苛刻要求,VLMs 在下游应用平台上的部署仍然具有挑战性。VLMs 的微调和量化可以大幅降低样本和计算成本,这迫切需要。量化中有两种流行的范式,量化感知训练 (QAT) 可以有效地量化大规模 VLMs,但会产生巨大的训练成本,而低比特训练后量化 (PTQ) 会导致显著的性能下降。我们提出了一种平衡微调和量化的名为“提示量化”(P4Q)的方法,其中我们设计了一个轻量级架构,利用对比损失监督来增强 PTQ 模型的识别性能。我们的方法可以有效地减少低比特量化导致的图像特征和文本特征之间的差距,基于可学习的提示来重组文本表示,以及低比特适配器来重新对齐图像和文本特征的分布。我们还引入了基于余弦相似度预测的蒸馏损失,以使用全精度教师蒸馏量化模型。大量的实验结果表明,我们的 P4Q 方法优于现有技术,甚至达到了与全精度对应模型相当的结果。例如,我们的 8 位 P4Q 可以理论上将 CLIP-ViT/B-32 压缩 4 倍,同时实现 66.94% 的 Top-1 准确率,在 ImageNet 数据集上,比可学习提示微调的全精度模型高出 2.24%,而额外的参数可以忽略不计。