LLM2D

摘要

arXiv:2403.08505v5 通知类型: replace-cross 摘要：现有的基于学习的立体图像编码器采用复杂的转换，但熵模型来自于单图像编码器，较为简单，难以有效地捕捉立体图像中固有的空间-视差特征，导致次优的率失真结果。本文提出了一种名为CAMSIC的立体图像压缩框架。CAMSIC独立地将每幅图像转换为潜在表示，并采用一个强大的无解码器Transformer熵模型来捕捉空间和视差依赖性，通过引入一种新型的内容感知掩码图像建模（MIM）技术。我们内容感知的MIM促进了先验信息和估计令牌之间的有效双向交互，自然地避免了额外的Transformer解码器的需要。实验表明，我们的立体图像编码器在Cityscapes和InStereo2K两个立体图像数据集上实现了最先进的率失真性能，并且具有快速的编码和解码速度。代码可在https://github.com/Xinjie-Q/CAMSIC获得。