摘要
arXiv:2403.08505v5 通知类型: replace-cross
摘要:现有的基于学习的立体图像编码器采用复杂的转换,但熵模型来自于单图像编码器,较为简单,难以有效地捕捉立体图像中固有的空间-视差特征,导致次优的率失真结果。本文提出了一种名为CAMSIC的立体图像压缩框架。CAMSIC独立地将每幅图像转换为潜在表示,并采用一个强大的无解码器Transformer熵模型来捕捉空间和视差依赖性,通过引入一种新型的内容感知掩码图像建模(MIM)技术。我们内容感知的MIM促进了先验信息和估计令牌之间的有效双向交互,自然地避免了额外的Transformer解码器的需要。实验表明,我们的立体图像编码器在Cityscapes和InStereo2K两个立体图像数据集上实现了最先进的率失真性能,并且具有快速的编码和解码速度。代码可在https://github.com/Xinjie-Q/CAMSIC获得。