LLM2D
分组频序排列旋转:免费优化旋转转换以实现量化
Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free
作者: Euntae Choi, Sumin Song, Woosang Lim, Sungjoo Yoo
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.03810v1

摘要

arXiv:2505.03810v1 宣言类型: 多领域交叉 摘要: 大型语言模型(LLMs)由于计算成本高而在部署中面临挑战,虽然后训练量化(PTQ)提供了一种解决方案,但现有的旋转基方法在very low bit-widths如2位时表现不佳。我们提出了一种新的、无需训练的方法来构建改进的旋转矩阵,解决了当前方法的限制。主要贡献包括利用沃尔什-哈达玛变换及其sequency排序,这将相似的频率成分聚类,从而在标准哈达玛矩阵的基础上显著减少量化误差,从而显著提高性能。此外,我们提出了分组sequency排列旋转(GSR),使用具有较小沃尔什块的块对角矩阵,有效地隔离了异常值的影响,并且在无需任何训练的情况下实现了与基于优化方法相当的性能。我们的方法在推理任务和WikiText-2上的困惑度(PPL)得分上表现出稳健的性能。即使在应用于现有的学习旋转技术之上,我们的方法也能增强结果。