LLM2D
LLMC:使用多功能压缩工具包对大型语言模型量化进行基准测试
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit
作者: Ruihao Gong, Yang Yong, Shiqiao Gu, Yushi Huang, Chengtao Lv, Yunchen Zhang, Xianglong Liu, Dacheng Tao
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2405.06001v3

摘要

大型语言模型 (LLM) 的最新进展及其显著涌现的能力和推理能力,正在推动我们走向人工通用智能。然而,巨大的计算和内存需求限制了其广泛应用。量化作为一种关键的压缩技术,可以通过压缩和加速LLM有效地减轻这些需求,尽管存在潜在的精度风险。许多研究致力于最小化与量化相关的精度损失。然而,它们的量化配置各不相同,无法进行公平比较。在本文中,我们提出了LLMC,一个即插即用的压缩工具包,用于公平且系统地探索量化的影响。LLMC集成了数十种算法、模型和硬件,从整数到浮点数量化,从LLM到视觉语言 (VLM) 模型,从固定位数到混合精度,从量化到稀疏化,具有很高的扩展性。借助这个多功能工具包,我们的基准测试涵盖了三个关键方面:校准数据、算法(三种策略)和数据格式,为进一步研究提供了新的见解和详细分析,并为用户提供了实践指导。我们的工具包可在 https://github.com/ModelTC/llmc 获取。