LLM2D

摘要

大型语言模型 (LLM) 的最新进展及其显著涌现的能力和推理能力，正在推动我们走向人工通用智能。然而，巨大的计算和内存需求限制了其广泛应用。量化作为一种关键的压缩技术，可以通过压缩和加速LLM有效地减轻这些需求，尽管存在潜在的精度风险。许多研究致力于最小化与量化相关的精度损失。然而，它们的量化配置各不相同，无法进行公平比较。在本文中，我们提出了LLMC，一个即插即用的压缩工具包，用于公平且系统地探索量化的影响。LLMC集成了数十种算法、模型和硬件，从整数到浮点数量化，从LLM到视觉语言 (VLM) 模型，从固定位数到混合精度，从量化到稀疏化，具有很高的扩展性。借助这个多功能工具包，我们的基准测试涵盖了三个关键方面：校准数据、算法（三种策略）和数据格式，为进一步研究提供了新的见解和详细分析，并为用户提供了实践指导。我们的工具包可在 https://github.com/ModelTC/llmc 获取。