LLM2D
预训练 Transformer 模型的压缩:针对字节级多模态数据的研究
Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data
作者: David Heurtel-Depeiges, Anian Ruoss, Joel Veness, Tim Genewein
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.05078v1

摘要

近年来,基础模型已被证明是强大的数据压缩器。然而,考虑到其过多的参数数量,其压缩率实际上不如标准压缩算法。此外,简单地减少参数数量并不一定会有帮助,因为它会导致更糟糕的预测,从而导致更弱的压缩。在本文中,我们进行了一项大规模的实证研究,以调查是否存在一个最佳点,在该点上,预训练的普通转换器可以实现有竞争力的压缩率。为此,我们在 165GB 的原始字节序列(文本、图像或音频数据,以及三者的所有可能组合)上训练模型族,然后压缩来自每种模态的 1GB 的非分布 (OOD) 数据。我们发现,相对较小的模型(即数百万个参数)可以优于标准的通用压缩算法(gzip、LZMA2),甚至优于特定领域的压缩器(PNG、JPEG 2000、FLAC)——即使在考虑参数数量的情况下也是如此。例如,我们在 OOD 音频数据上实现了 0.49 的最低压缩率(而 FLAC 的压缩率为 0.54)。为了研究模型和数据集规模的影响,我们进行了广泛的消融和超参数扫描,并研究了单模态与多模态训练的效果。我们发现,即使是小型模型也可以被训练成在多个模态上表现良好,但与之前关于大规模基础模型的报道结果相反,迁移到看不见的模态通常很弱。