LLM2D

摘要

arXiv:2502.00425v1 公告类型: cross 摘要: 多模态大规模语言模型（MLLMs）因其能够理解多模态输入而引起了广泛关注。然而，它们庞大的参数量和巨大的计算需求严重阻碍了其实用部署和应用。虽然量化是减少模型大小和推理延迟的有效方法，但其在MLLMs中的应用仍然较少探索。在本文中，我们提出了MQuant，这是一种后训练量化（PTQ）框架，旨在解决多模态大规模语言模型（MLLMs）的独特挑战。传统的量化方法通常难以处理MLLMs，因为存在以下问题：(a) 大量视觉标记引起的高推理延迟，(b) 视觉标记和文本标记之间的分布差异，以及 (c) Hadamard变换引入的极端离群值。为了解决这些问题，MQuant引入了以下方法：模态特定静态量化（MSQ），为视觉标记和文本标记分配不同的静态缩放值；注意力不变灵活切换（AIFS），重新排序标记以保留因果注意力的同时消除昂贵的标记级缩放计算；旋转幅度抑制（RMS），减轻在线 Hadamard 旋转引起的权重离群值。在五种主流MLLMs（包括Qwen-VL、MiniCPM-V、CogVLM2）上，MQuant在W4A8条件下实现了接近浮点精度（<1%的退化）的同时，将推理延迟降低了高达30%，显著优于现有PTQ基线。我们的MQuant有效地解决了资源受限设备中高效准确的MLLMs推理之间的鸿沟。代码将开源。