摘要
arXiv:2502.09971v1 交叉公告类型:cross
摘要:在本文中,我们研究了如何从外部字典合成一个动态参考,以在潜在域中对输入图像进行条件编码,并探讨如何以端到端的方式学习条件潜在合成和编码模块。我们的方法始于使用多阶段方法构建一个通用的图像特征字典,该方法包括修改后的空间金字塔池化、维数降低和多尺度特征聚类。对于每个输入图像,我们学习通过从字典中选择和合成相关的特征来合成条件潜在变量,这显著增强了模型捕获和探索图像源相关性的能力。这种条件潜在变量合成涉及基于相关性的特征匹配和对齐策略,包括一个条件潜在匹配(CLM)模块和一个条件潜在合成(CLS)模块。合成的潜在变量随后用于引导编码过程,通过利用输入图像与参考字典之间的相关性来实现更高效的压缩。根据我们的理论分析,所提出的条件潜在编码(CLC)方法对外部字典样本和选定的条件潜在变量的扰动具有鲁棒性,其误差上限与字典大小呈对数关系,即使使用大量和多样化的字典也能确保稳定性。基准数据集上的实验结果显示,与现有方法相比,我们的新方法在编码性能上有显著提高(最多可达1.2 dB),并且仅需很小的额外开销,约为每像素0.5%的比特数。我们的代码已在 https://github.com/ydchen0806/CLC 公开发行。