LLM2D
大型模型实现无损数据压缩
Lossless data compression by large models
作者: Ziguang Li, Chao Huang, Xuliang Wang, Haibo Hu, Cole Wyeth, Dongbo Bu, Quan Yu, Wen Gao, Xingwu Liu, Ming Li
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2407.07723v3

摘要

arXiv:2407.07723v3 公告类型:替换-交叉 摘要:在80年的研究、数以百万计的文章以及广泛的应用之后,现代数据压缩方法正逐渐达到其极限。然而, extravagant 的6G通信速度要求为革命性的新数据压缩想法提出了一个主要的开放问题。我们之前已经证明,在合理的假设下,所有理解和学习都是压缩。大语言模型(LLMs)比以往任何时候都更好地理解了数据。它们能否帮助我们压缩数据?LLMs 可以被视为对不可计算的索洛莫诺夫归纳法的近似。因此,在这个新的不可计算的范式下,我们提出了 LMCompress。LMCompress 突破了所有之前的无损压缩算法,将 JPEG-XL 图像、FLAC 音频和 H.264 视频的无损压缩比翻倍,并将 bz2 文本的压缩比提高四倍。大模型对数据理解得越好,LMCompress 的压缩效果就越好。