LLM2D
RaanA:一种快速、灵活且数据高效的后训练量化算法
RaanA: A Fast, Flexible, and Data-Efficient Post-Training Quantization Algorithm
作者: Yongyi Yang, Jianyang Gao, Wei Hu
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03717v1

摘要

arXiv:2504.03717v1 类型: cross 摘要: 后训练量化(PTQ)已成为提高大型语言模型(LLMs)推理效率的一种广泛使用的技术。然而,现有的PTQ方法通常遭受一些关键限制,如对大量校准数据的需求以及目标位数选择的灵活性较低。本文中,我们提出了一种名为RaanA的统一PTQ框架,通过引入两种新颖的组件来克服这些挑战:1) RaBitQ-H,这是随机向量量化方法RaBitQ的一种变体,旨在实现快速、准确且高效的量化;以及2) AllocateBits,这是一种基于其量化敏感性的算法,用于在各层之间优化分配位宽。RaanA在保持与最新量化方法竞争力的同时,执行速度极快,需要少量的校准数据,并允许灵活的位宽分配。广泛的实验表明,RaanA在效率和准确性的平衡方面具有有效性。代码已公开发布在https://github.com/FFTYYY/RaanA 。