LLM2D

摘要

arXiv:2504.03717v1 类型: cross 摘要: 后训练量化（PTQ）已成为提高大型语言模型（LLMs）推理效率的一种广泛使用的技术。然而，现有的PTQ方法通常遭受一些关键限制，如对大量校准数据的需求以及目标位数选择的灵活性较低。本文中，我们提出了一种名为RaanA的统一PTQ框架，通过引入两种新颖的组件来克服这些挑战：1) RaBitQ-H，这是随机向量量化方法RaBitQ的一种变体，旨在实现快速、准确且高效的量化；以及2) AllocateBits，这是一种基于其量化敏感性的算法，用于在各层之间优化分配位宽。RaanA在保持与最新量化方法竞争力的同时，执行速度极快，需要少量的校准数据，并允许灵活的位宽分配。广泛的实验表明，RaanA在效率和准确性的平衡方面具有有效性。代码已公开发布在https://github.com/FFTYYY/RaanA 。