LLM2D

摘要

arXiv:2410.23918v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）已经彻底改变了众多应用，但在本地设备上部署这些模型仍受到内存限制的挑战。尽管扩展定律提高了LLM的能力，瓶颈已经从“能力”转变为“可用性”，突显了高效内存管理的必要性。传统的压缩方法，例如量化，通常需要预定义的压缩比例，并且每个设置都需要单独的压缩过程，这在不同内存环境下的部署中显得复杂。在这篇论文中，我们介绍了**BitStack**，这是一种新型的、无需训练的权重压缩方法，它能够在内存使用和模型性能之间实现兆字节级别的权衡。通过利用权重分解，BitStack可以动态调整模型大小，同时在运行内存和存储设备之间进行最小的传输。我们的方法在每一步分解权重时都会考虑每个参数的重要性，从而在每次分解迭代中产生大约1比特/参数的残差块。这些块按顺序存储为基本传输单元，根据当前可用的内存数量加载不同数量的块。在各种任务的广泛实验中表明，尽管提供了细粒度的大小控制，BitStack仍然能够一致地匹配或超越强大的量化基准，特别是在极端压缩比例下。据我们所知，这是第一个有效填补分解方法与实用压缩技术（如量化）之间差距的方法。代码可以在 https://github.com/xinghaow99/BitStack 获取。