LLM2D

摘要

arXiv:2505.07531v1 宣告类型: 新摘要: 我们介绍QuantX: 一个针对大规模语言模型(LLM)和视觉语言模型(VLM)量化定制的工具包。它能够将模型量化至3位分辨率，同时保持最小的性能损失。QuantX中的量化策略考虑了硬件特定的约束，以实现有效的反量化，在推理过程中确保在运行时速度、内存需求和模型准确性之间灵活的权衡。我们的结果显示，QuantX在LLaVa-v1.6模型量化至3位时，多次针对最终用户的任务实现了与未量化模型性能相差6%之内的效果，并优于最近公布的最先进的量化技术。本文提供了关于LLM量化过程的见解，这些见解激励了QuantX中纳入的各类方法和选项。