摘要
arXiv:2505.07531v1 宣告类型: 新
摘要: 我们介绍QuantX: 一个针对大规模语言模型(LLM)和视觉语言模型(VLM)量化定制的工具包。它能够将模型量化至3位分辨率,同时保持最小的性能损失。QuantX中的量化策略考虑了硬件特定的约束,以实现有效的反量化,在推理过程中确保在运行时速度、内存需求和模型准确性之间灵活的权衡。我们的结果显示,QuantX在LLaVa-v1.6模型量化至3位时,多次针对最终用户的任务实现了与未量化模型性能相差6%之内的效果,并优于最近公布的最先进的量化技术。本文提供了关于LLM量化过程的见解,这些见解激励了QuantX中纳入的各类方法和选项。