LLM2D

摘要

arXiv:2503.21284v2 通报类型: replace-cross 摘要：基于自编码器的结构主导了最近的学习图像压缩方法。然而，自编码器固有的信息损失限制了其在高位率下的率失真性能，并限制了其位率适应的灵活性。在本文中，我们提出了一种基于可逆变换的变率图像压缩模型，以克服这些限制。具体地，我们设计了一种轻量级多尺度可逆神经网络，该网络将输入图像一一映射到多尺度潜在表示。为了提高压缩效率，我们设计了一种扩展增益单元的多尺度空域-通道上下文模型，用于从高到低估计潜在表示的熵。实验结果表明，所提出的方法在现有变率方法中性能最佳，且与近期的多模型方法保持竞争力。值得注意的是，我们的方法是第一个在使用单一模型的情况下，从非常广泛的位率范围内优于VVC的方法，尤其是在高位率时。源代码可从https://github.com/hytu99/MSINN-VRLIC 获取。