摘要
尽管统计先验模型在各个领域得到广泛应用,但针对神经网络梯度的此类模型却长期被忽视。其固有的挑战在于高维结构和复杂的相互依赖关系,这使得有效建模变得复杂。在这项工作中,我们展示了大型语言模型 (LLM) 在零样本设置中充当梯度先验的潜力。我们通过考虑无损梯度压缩来检验这种特性,该压缩是分布式学习中的一个关键应用,严重依赖于精确的概率建模。为了实现这一点,我们引入了 LM-GC,这是一种将 LLM 与算术编码相结合的新方法。我们的技术将普通梯度转换为类似文本的格式,与它们的普通表示相比,令牌效率提高了高达 38 倍。我们确保这种数据转换与普通梯度的结构以及 LLM 通常识别的符号保持紧密一致。我们的实验表明,LM-GC 超越了现有的最先进的无损压缩方法,在各种数据集和架构上将压缩率提高了 10% 到 17.2%。此外,我们的方法显示出与量化和稀疏化等有损压缩技术具有良好的兼容性。这些发现突出了 LLM 作为有效处理梯度的模型的巨大潜力。我们将在出版后发布源代码。