LLM2D

摘要

近年来，基础模型已被证明是强大的数据压缩器。然而，考虑到其过多的参数数量，其压缩率实际上不如标准压缩算法。此外，简单地减少参数数量并不一定会有帮助，因为它会导致更糟糕的预测，从而导致更弱的压缩。在本文中，我们进行了一项大规模的实证研究，以调查是否存在一个最佳点，在该点上，预训练的普通转换器可以实现有竞争力的压缩率。为此，我们在 165GB 的原始字节序列（文本、图像或音频数据，以及三者的所有可能组合）上训练模型族，然后压缩来自每种模态的 1GB 的非分布 (OOD) 数据。我们发现，相对较小的模型（即数百万个参数）可以优于标准的通用压缩算法（gzip、LZMA2），甚至优于特定领域的压缩器（PNG、JPEG 2000、FLAC）——即使在考虑参数数量的情况下也是如此。例如，我们在 OOD 音频数据上实现了 0.49 的最低压缩率（而 FLAC 的压缩率为 0.54）。为了研究模型和数据集规模的影响，我们进行了广泛的消融和超参数扫描，并研究了单模态与多模态训练的效果。我们发现，即使是小型模型也可以被训练成在多个模态上表现良好，但与之前关于大规模基础模型的报道结果相反，迁移到看不见的模态通常很弱。