LLM2D

摘要

arXiv:2503.21284v1 宣传类型: cross 摘要：基于自编码器的结构在最近的learned图像压缩方法中占主导地位。然而，自编码器固有的信息损失限制了其在高位率下的率失真性能，并限制了其位率适应的灵活性。在本文中，我们提出了一种基于可逆变换的可变位率图像压缩模型，以克服这些限制。具体而言，我们设计了一个轻量级的多尺度可逆神经网络，它双射地将输入图像映射为多尺度潜在表示。为了提高压缩效率，我们设计了一种扩展增益单元的多尺度空间-通道上下文模型，从高到低估计潜在表示的_entropy_。实验结果表明，提出的方法在与现有可变位率方法相比时达到了最先进的性能，并且在与最近的多模型方法竞争时仍然表现出竞争力。值得注意的是，我们的方法是唯一一个在很宽的位率范围内，尤其是在高位率下，使用单一模型就能在所有方面超越VVC的learned图像压缩解决方案。源代码可在 \href{https://github.com/hytu99/MSINN-VRLIC}{https://github.com/hytu99/MSINN-VRLIC} 获取。