LLM2D

摘要

arXiv:2505.08823v1 Announce Type: cross 摘要：大规模语言模型（LLMs）已经改变了自然语言处理，但它们的规模使得实际部署成本高昂。后训练量化减少了内存和计算，但经常会降低准确性，而量化感知训练则可以在增加额外训练成本的情况下恢复性能。将量化推到三值（2位）领域可以带来更大的节省，但众所周知非常不稳定。基于最近的研究，研究工作表明，在无偏差、RMS归一化的Transformer中使用直通估计可以达到1.58位精度，我们证明，通过在每个线性投影之前插入RMS归一化并在层基础上应用渐进的量化计划，可以稳定地将全精度检查点微调为三值LLMs。我们的方法在标准语言模型基准上达到了或超过了更复杂的知识蒸馏管道的效果，而无需增加模型复杂性。这些结果表明，单独的仔细归一化可以缩小三值和全精度LLMs之间大部分的准确性差距，使超低位数推理变得可行。