LLM2D

摘要

arXiv:2505.00850v1 宣告类型: cross 摘要: 大型语言模型（LLMs）的快速部署突显了高效低位宽后训练量化（PTQ）的必要性，因为它们占用大量内存。权重量化中的一个关键挑战是存在异常值，这会扩大量化范围并导致大量错误。虽然已经提出了一些异常值抑制技术，但它们要么未能有效缩小量化范围，要么引入（相寎）较高的位开销。在本文中，我们提出了一种名为ICQuant的新框架，该框架利用异常值统计设计了一种高效的索引编码方案，以实现具有异常值感知能力的权重量化。与需要约1位开销来减半量化范围的现有异常值抑制技术相比，ICQuant只需要约0.3位；在极端压缩情况（例如，每权重2-3位）下，这是一个显著的节省。ICQuant可以在任何现有量化器之上使用，以消除异常值，从而提高量化质量。使用每权重仅为2.3位和简单的标量量化器，ICQuant将2位的Llama3-70B模型的零样本准确度分别提高了130%和150%，并优于QTIP和QuIP#的表现；并且在无需微调的情况下，其性能与目前已知的最佳微调量化器（PV-tuning）相当。