LLM2D
BitStack:在可变内存环境中大型语言模型的任意大小压缩
BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments
作者: Xinghao Wang, Pengyu Wang, Bo Wang, Dong Zhang, Yunhua Zhou, Xipeng Qiu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2410.23918v3

摘要

arXiv:2410.23918v3 宣告类型: replace-cross 摘要:大型语言模型(LLMs)已经彻底改变了众多应用,但在本地设备上部署这些模型仍受到内存限制的挑战。尽管扩展定律提高了LLM的能力,瓶颈已经从“能力”转变为“可用性”,突显了高效内存管理的必要性。传统的压缩方法,例如量化,通常需要预定义的压缩比例,并且每个设置都需要单独的压缩过程,这在不同内存环境下的部署中显得复杂。在这篇论文中,我们介绍了**BitStack**,这是一种新型的、无需训练的权重压缩方法,它能够在内存使用和模型性能之间实现兆字节级别的权衡。通过利用权重分解,BitStack可以动态调整模型大小,同时在运行内存和存储设备之间进行最小的传输。我们的方法在每一步分解权重时都会考虑每个参数的重要性,从而在每次分解迭代中产生大约1比特/参数的残差块。这些块按顺序存储为基本传输单元,根据当前可用的内存数量加载不同数量的块。在各种任务的广泛实验中表明,尽管提供了细粒度的大小控制,BitStack仍然能够一致地匹配或超越强大的量化基准,特别是在极端压缩比例下。据我们所知,这是第一个有效填补分解方法与实用压缩技术(如量化)之间差距的方法。代码可以在 https://github.com/xinghaow99/BitStack 获取。