摘要
arXiv:2502.00425v1 公告类型: cross
摘要: 多模态大规模语言模型(MLLMs)因其能够理解多模态输入而引起了广泛关注。然而,它们庞大的参数量和巨大的计算需求严重阻碍了其实用部署和应用。虽然量化是减少模型大小和推理延迟的有效方法,但其在MLLMs中的应用仍然较少探索。在本文中,我们提出了MQuant,这是一种后训练量化(PTQ)框架,旨在解决多模态大规模语言模型(MLLMs)的独特挑战。传统的量化方法通常难以处理MLLMs,因为存在以下问题:(a) 大量视觉标记引起的高推理延迟,(b) 视觉标记和文本标记之间的分布差异,以及 (c) Hadamard变换引入的极端离群值。为了解决这些问题,MQuant引入了以下方法:模态特定静态量化(MSQ),为视觉标记和文本标记分配不同的静态缩放值;注意力不变灵活切换(AIFS),重新排序标记以保留因果注意力的同时消除昂贵的标记级缩放计算;旋转幅度抑制(RMS),减轻在线 Hadamard 旋转引起的权重离群值。在五种主流MLLMs(包括Qwen-VL、MiniCPM-V、CogVLM2)上,MQuant在W4A8条件下实现了接近浮点精度(<1%的退化)的同时,将推理延迟降低了高达30%,显著优于现有PTQ基线。我们的MQuant有效地解决了资源受限设备中高效准确的MLLMs推理之间的鸿沟。代码将开源。