LLM2D
内容感知的遮罩图像建模变换器用于立体图像压缩
CAMSIC: Content-aware Masked Image Modeling Transformer for Stereo Image Compression
作者: Xinjie Zhang, Shenyuan Gao, Zhening Liu, Jiawei Shao, Xingtong Ge, Dailan He, Tongda Xu, Yan Wang, Jun Zhang
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2403.08505v5

摘要

arXiv:2403.08505v5 通知类型: replace-cross 摘要:现有的基于学习的立体图像编码器采用复杂的转换,但熵模型来自于单图像编码器,较为简单,难以有效地捕捉立体图像中固有的空间-视差特征,导致次优的率失真结果。本文提出了一种名为CAMSIC的立体图像压缩框架。CAMSIC独立地将每幅图像转换为潜在表示,并采用一个强大的无解码器Transformer熵模型来捕捉空间和视差依赖性,通过引入一种新型的内容感知掩码图像建模(MIM)技术。我们内容感知的MIM促进了先验信息和估计令牌之间的有效双向交互,自然地避免了额外的Transformer解码器的需要。实验表明,我们的立体图像编码器在Cityscapes和InStereo2K两个立体图像数据集上实现了最先进的率失真性能,并且具有快速的编码和解码速度。代码可在https://github.com/Xinjie-Q/CAMSIC获得。